苹果自动驾驶新进展：36块钱训练百万公里数据，10天跑完16亿公里

发布时间：2025-02-26 11:25:49 来源：盖世汽车阅读量：18205

一天训练950年驾驶经验，苹果让自动驾驶自己“修仙”。

苹果于机器学习研究页揭秘自动驾驶新进展，一日之内累积950年驾驶智慧，仿佛让汽车踏上“修仙”之旅。

这篇论文的突破性贡献在于它创造性地推出了一款名为GIGAFLOW的全新大规模自博弈强化学习架构，并有力证实其能高效培育出既通用又具备高度稳定性的驾驶方案。从数据层面来看，借助这一革命性的自监督训练机制，仅仅十天便能累积16亿公里的模拟里程，这相当于人类驾驶者9500年的行驶经验。换算到单日，则意味着每天可模拟出1.6亿公里的行程与950年的驾驶智慧。更引人瞩目的是，这样的训练成本极为经济，每百万公里的模拟费用不到5美元，并且全程无需依赖真实世界的数据采集。此番研究的发布，无疑昭示着苹果虽已挥手告别电动汽车制造领域，但对汽车行业的热情与探索并未因此熄灭。或许在不久的将来，苹果会在自动驾驶技术的舞台上，再度祭出令人瞠目的创新之作。回溯苹果的汽车制造之旅，其始于2008年乔布斯亲自挂帅的“泰坦计划”。历经数次战略转型、团队重构与领导层的更迭，苹果的目标逐渐由全自动驾驶车辆向技术深耕偏移。然而，由于战略定位模糊与执行层面的乏力，苹果始终未能拿出令人信服的产品。直至2024年初，苹果终于宣布终止电动汽车开发项目。据媒体披露，该项目已至少吞噬了苹果100亿美元(约721亿元人民币)的资金。这一决定不仅令人扼腕，也触动了马斯克、雷军等科技界大佬的深切感慨。

GIGAFLOW——自博弈训练设计的新星它以高效获取训练经验为核心，构建了一个专为自博弈而生的高度并行化模拟器与强化学习架构。GIGAFLOW致力于通过虚拟手段，模拟出覆盖数十亿公里的驾驶场景，培育出兼容并蓄、应对自如的驾驶策略，摆脱了对真实数据的依赖。其并行处理能力惊人，8块GPU即可驱动3.84万虚拟环境同频共振，每小时催生4.4亿次状态更迭，这一速率，足以比拟42载真实驾驶岁月的积淀。

值得一提的是GIGAFLOW的模拟环境设计简洁，但通过大规模自博弈的方式弥补了其设计上的简化。

GIGAFLOW系统采纳了8幅基础地图，各图车道绵延4至40公里不等。这些地图经由随机化处理，如缩放与镜像翻转，衍生出多样变体，交织成总长136公里的道路迷宫。在这片虚拟“疆域”里，智能体自随机起点启程，穿梭其间，历经多个中转站，向随机散布的终点进发。

从交互决策的视角审视，这一环境中智能体的最大共存数量为150，它们遵循同一策略框架，却能在不同参数条件下展现出多姿多彩的行为面貌，诸如激进型驾驶与合规型驾驶等。在训练历程中，智能体凭借自我对弈的方式，逐步精通了繁复的驾驶技巧。这些技巧囊括了在拥堵路段执行“拉链式”并线、环岛内的协调行进、狭窄空间中的多点掉头，以及在遭遇事故或路障时的路径重规划。尤为值得一提的是，所有这些精妙技巧均是在无预设剧本或人类示范的情形下，通过自我对弈自然而然浮现而出的。

GIGAFLOW在单节点上展现了惊人的能力，能够模拟3.84万个并行环境，并借助GPU加速的物理计算和动态状态压缩技术，显著减少了内存消耗与通信成本。就训练资源配置而言，GIGAFLOW的完整训练流程需2000GPU小时，耗时约10天，总计算量高达2.3×10^19FLOP，涵盖16亿公里的训练数据。参考AWS p4d实例的定价，整个训练过程的成本约为4.8万美元，即人民币34.56万元，这一价格相较于同类强化学习方案，展现出极高的性价比。

除了依赖人类数据进行模仿学习所带来的高昂标注成本外，GIGAFLOW巧妙规避了此项费用。其利用优势过滤技术，通过动态阈值智能剔除低质样本，使反向传播计算量锐减约80%。更令人称奇的是，所有交通参与者，无论是车辆还是行人，均共享同一策略网络，从而有效避免了多模型训练的庞大开销。。

此外，GIGAFLOW采用了一种创新手段，即通过预先离线处理地图的栅格特征，诸如车道布局与交通信号位置，来减轻实时计算的负担。尽管如此，GIGAFLOW仍面临成本方面的掣肘，特别是对高性能8 GPU节点的依赖，存在实施难度。要想确保这一策略的稳健性，需历经超过15亿公里的训练里程，短期训练难以达成预期效果。加之车辆动态特性和奖励函数的即时随机化处理，还会额外增加约15%的计算压力。可以说，GIGAFLOW为自动驾驶训练指明了前行方向，但距离实现“颠覆性”飞跃尚有距离。

能力超越基准

未来仍有改进空间

在基准测试舞台上，GIGAFLOW策略展现出了非凡的零样本泛化实力，这一能力在三大自动驾驶领域的标杆测试中得到了有力证明:CARLA、nuPlan与Waymax。CARLA侧重于工匠级驾驶场景的设计，考量长途驾驶的稳定性；nuPlan则依据真实驾驶记录，检验短途驾驶的敏锐度；而Waymax，借助Waymo Open Motion Dataset塑造的模拟天地，挑战复杂路况下的驾驶智慧。

测试结果揭晓，GIGAFLOW策略在各项基准测试中均力压专为基准设计的专家模型，彰显卓越的零样本泛化实力。即便未经任何基准特定微调，其表现仍超越那些精心优化的模型。于CARLA模拟环境中，GIGAFLOW策略灵活应对行人突发穿行、拥堵路口等复杂路况，展现出非凡的应对能力。

在nuPlan与Waymax的基准测评里，GIGAFLOW策略彰显出流畅且可靠的驾驶表现。深入分析揭示，该策略在维持长时间驾驶稳定性上同样出类拔萃。在减少动态干扰、提升操控频次的环境下，智能体平均行驶1750万公里才遭遇一次事故，相比之下，美国人类驾驶者的平均事故率则为每82.9万公里便发生一次。

除此之外，研究者们对GIGAFLOW策略的行为特质进行了深刻的剖析，它具备前瞻性的决策智慧，能依据未来潜在情境灵活调整驾驶动作；同时，其驾驶风格多变，通过调整参数配置，策略能轻松切换从保守至激进的多种模式；在涉及多车协同的复杂局面(例如车流交汇)中，策略同样展现出灵动且流畅的反应。然而，即便在这一领域取得了显著成就，项目团队依然面临诸多待解之题。诚然，该策略减少了对手动数据搜集的依赖，能孕育多样化的驾驶表现，但其研究边界依旧清晰可见。首要问题在于，纯模拟环境下的训练策略尚未在现实道路上经受检验，其真实应用效果尚属未知。再者，研究预设感知系统无瑕，但在真实情境中，传感器误差与环境变量的不确定性或许会对策略性能造成显著冲击。最后，尽管自博弈展现了出色的泛化潜力，但如何将其与人类数据驱动的模仿学习巧妙融合，仍是未来探索的重要课题。

声明：以上内容为本网站转自其它媒体，相关信息仅为传递更多企业信息之目的，不代表本网观点，亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险，需谨慎。

上一篇：全国首个罕见病人工智能大模型进入临床，我国智慧医疗相关企业超75.7万家
下一篇：返回列表

网罗天下