Mobileye Driving AI Day 活动的5大要点

首席执行官 Amnon Shashua 教授和首席技术官 Shai Shalev-Shwartz 教授介绍自动驾驶出行领域的关键人工智能技术的进展。

Shai Shalev-Shwartz 教授和 Mobileye 总裁兼首席执行官 Amnon Shashua 教授出席 Driving AI Day

Mobileye是致力于开发完全自动驾驶系统的领军企业之一。我们的目标是搭建完全自动驾驶“可脱眼”系统，但这是一项十分复杂的工作，需要极高的安全标准，以及大量的长期投资。为了达成这一里程碑，我们凭借在高级驾驶辅助技术市场的领先地位创造当前收入，确保业务的可持续发展，同时始终聚焦于完全自动驾驶的最终目标。

但要如何实现这一目标？上个月，我们的首席执行官Amnon Shashua教授和首席技术官Shai Shalev-Schwartz教授在Mobileye Driving AI Day活动中发表了演讲，讨论并分享了Mobileye为实现这一里程碑所采用的创新人工智能方法。

观看演讲的五大要点，阐释了Mobileye以智能方式利用人工智能，从而逐步攻克自动驾驶技术的挑战。

单一方法无法解决自主性问题

在开场演讲中，Mobileye首席执行官Amnon Shashua教授概述了解决自主性问题的三种技术路线。以激光雷达为核心的复合人工智能系统（CAIS）方法，以纯视觉和端到端人工智能方法，以及Mobileye以摄像头为核心的复合人工智能系统（CAIS）方法。

Shashua教授强调了评估每种方法时，需要基于四大关键支柱来衡量其是否成功实现自主性：成本、模块化、地域可扩展性和平均故障间隔时间（MTBF）。虽然每种方法都有其独特的优势和局限性，但没有一种方法能满足全部四大支柱并完全解决自主性问题。

每种方法都有利有弊。某种方法可以提供高精度但生产效率却极度低下，而另一种方法本身则可能存在局限性或并不可靠。例如，以激光雷达为核心方法可提供高精度，从而实现极高（出色）的平均故障间隔时间，但其成本却限制了区域可扩展性，因此其难以适应更广泛的市场。

相反，依靠纯视觉或以摄像头为核心方法更为经济实惠，但通常会在实现高MTBF方面面临更多挑战，而且纯端到端方法会带来自动驾驶汽车领域的对齐问题（难以确保人工智能系统/机器学习模型的目标与人类目标保持一致）。不过，经过平衡的方法可以弥合这些差距，既提供安全性，又能实现自动驾驶市场的可扩展性。

纯端到端方法存在局限性

端到端方法的前提是，向系统输入的数据越多，系统在模仿人类驾驶行为方面的能力就越优秀，最终达到甚至超越人类的驾驶水平。这种方法无需“粘合代码”或手动编码，而是完全依赖数据，尤其是无监督数据。

基于Transformer的神经网络从数以百万计的汽车发送的驾驶数据中不断学习，消除了人工标注或解释数据的手动过程。。然而，这种方法面临三大挑战：缺乏抽象概念、存在捷径学习问题以及长尾问题。这三个挑战都凸显了当前系统在有效处理复杂现实驾驶场景方面的局限性。

在演讲中，Shashua教授以“计算器问题”为例解释了缺乏抽象概念的局限性。其中，“计算器问题”是指ChatGPT因其基于语言的架构局限性，难以可靠地处理复杂多步骤计算的问题。

要解决这个问题，答案其实极其简单：必须集成计算器工具（即集成Python环境来提高计算准确性）。然而，Shashua教授认为，仅仅依靠无监督数据的端到端方法来解决自动驾驶汽车这样的安全关键系统的所有复杂问题，既不可靠又充满风险。

这种方法还有可能在学习阶段嵌入不良甚至危险的驾驶行为，且自动驾驶汽车的“对齐问题”也会更加显而易见，因为模型可能会优先考虑“常见但错误”的行为，而不是“罕见但正确”的行为。

例如，人类驾驶员通常会在接近停车标线时选择缓慢减速后继续前进，或做出鲁莽驾驶行为，此时，尽管这些行为并不正确，系统仍可能会将其视为常见行为进行学习。因此，区分正确和不正确的操作（尤其是在“罕见但正确”的场景中）仍然是一项复杂的挑战。

这些问题可以通过特斯拉完全自动驾驶（FSD）系统收集的数据得到实际例证。我们可以看到，完全自动驾驶系统的数据表明，长尾问题在此显现，即使输入大量数据，模型也很难充分解决这些罕见事件，从而影响系统的整体安全性和可靠性，并阻碍系统在每一次产品升级中提高平均故障间隔时间（MTBF）的能力。

这一问题凸显了仅依靠大型数据集的局限性，因为罕见但关键的驾驶场景往往在数据中被低估或缺失。

PGF(Primary-Guardian-Fallback) 融合对于打造安全系统至关重要

在整个驾驶过程中，我们需要进行无数次决策。从非常简单的二元选择——例如左转还是右转、刹车还是不刹车，到更复杂和微妙的判断——比如，如果我要刹车，是应该轻踩还是急刹？

经典的处理方式是：多个系统提供答案，并采取少数服从多数的原则 – 如果三个系统中有两个决定向左并线，那么就向左并线。但是，如果这三个系统提供了三种不同的建议，例如分别是左转、右转或保持直行呢？在这种情况下，多数原则并不能解决问题。

这时候就需要PGF（Primary-Guardian-Fallback）融合方法。PGF系统是一个分层决策模型。其工作原理如下：

Primary 主系统: 该系统是标准自动驾驶系统（SDS），用于生成车辆的轨迹 - 规划的路线或行动方案。在大多数情况下，它是主要决策者，输出初步建议的行驶路线或行动方案。
Fallback 备用系统: 与Primary主系统一样，Fallback备用系统是另一种能自动生成路径轨迹或替代路线的自动驾驶系统。它是“Primary”主系统遇到问题或Guardian监护系统检测到潜在问题时的备用系统。
Guardian 监护系统: Guardian监护系统是一个监控层。它不会直接生成路径，而是对Primary主系统的轨迹进行评估，以确保其符合一定的安全性和可行性标准。简而言之，Guardian监护系统会评估Primary主系统建议的行动方案是否安全可行。如果Guardian监护系统发现问题，则可以触发Primary主系统切换到Fallback备用系统，以确保车辆的安全领航行驶。

在决定是否刹车的二元情景中，以使用三重传感器系统为例：摄像头（“Primary”主系统）、雷达（“Guardian”监护系统）和激光雷达（“Fallback”备用系统），按多数原则进行决策：如果摄像头和雷达决策一致，就直接执行；如果不一致，就遵从激光雷达的建议，而激光雷达的建议必然会与另外两个系统其中之一的建议保持一致，确保服从多数 - 因此，PGF相当于秉持了2/3多数原则。

“三个子系统中的多数”这一概念只在二元决策中具有明确的定义。然而，我们在驾驶过程中需要做出的许多决策都不是二元决策。

最值得注意的是，车道的几何形状并不是二元决策，而这种几何形状对责任敏感安全模型（RSS）的决策有着深远的影响。因此，我们提出了一种对多数原则的概括，称之为PGF（Primary-Guardian-Fallback）融合系统。这种融合系统遵循“Primary”主系统或“Fallback”备用系统的建议，具体取决于“Guardian”监护系统的输出。

Transformer 效率可提高100倍

在目标物检测领域，通信至关重要。将图像准确输入标记化流程 - 将其转换为可解读和可处理的数据 -需要尽可能精确的执行。而要进一步提升效率，不仅需要智能的标记化过程，还需要构建一个系统，使标记能够以高效且有序的方式进行大规模相互通信，从而实现更高级别的协同处理。

需要注意的是，由于单个芯片的计算要求很高，通信过程必须高效。为使芯片流畅运行，则必须优化数据流，以防止芯片性能滞后，从而导致通信速度变慢。

在演讲中，Mobileye首席技术官Shai Shalev-Schwartz教授解释了Mobileye利用稀疏类型注意力（STAT）方法解决这一问题，并将Transformer效率提高100倍。稀疏类型注意力方法通过将标记组织成结构化的组来优化标记之间的通信。想象一下，成千上万人试图在一个巨大的体育场内互相交谈，必然会导致混乱。同样的概念也适用于成千上万的标记，在相同的场景下，它们很难有效地相互交流。而STAT方法正是为解决这一问题而设计的。

除非将其划分为特定的角色 - 例如“常规标记”和“管理者标记” - 以创建更有组织的通信结构，或者更准确地说，是相关的连接方式。这基本上就是稀疏类型注意力背后的理念，通过改进类型和组织方式，引入结构和参数来提高模型效率。

那我们是如何做到这一点的呢？我们通过用“管理者”或链接标记，对标记进行划分和分组来建立秩序，让常规标记可以独立地与链接标记（“管理者”）进行通信。例如，通过将300个常规标记与32个链接标记分组，常规标记就可以与链接标记通信，而链接标记之间也可以相互通信。这种结构化方法大大降低了复杂性，将模型效率提高了100倍。

在效率与灵活性之间寻找最佳平衡点

Shai Shalev-Schwartz 教授阐述了芯片运行中效率和灵活性之间的平衡。简而言之，如果我们要设计只具单一内置用途的超高效芯片，那么它的效率会非常高，但同时功能也非常有限。

另一方面，如果设计一款多任务处理芯片，那么它的灵活性就会很高，但其性能却不会那么高效。这就是效率和灵活性之间的基本权衡 - 尤其是对于车载芯片而言。然而，EyeQ™6 High芯片恰好能够满足自动驾驶的需求，实现了灵活性和效率之间的完美结合。

为实现这一目标，EyeQ™6 High芯片内部包含了多种组件，每种组件都具有不同程度的灵活性和效率。Shai Shalev-Schwartz教授提到了五种不同架构的组件，这些组件从高度专用、高效到高度灵活，不一而足。从两种高度灵活的中央处理器 - MPC和MIPS，到高效且特定的XNN，再到介于两者之间的两种加速器，EyeQ™6 High芯片可根据操作的不同进行调整，以适用于不同的应用范围。

在执行苛刻的人工智能深度学习任务时，Mobileye EyeQ6 High的效率令人印象深刻。其34 TOPS（每秒万亿次运算）的算力大大超越了前代产品EyeQ5。然而，单纯比较TOPS数字并不能完全反映其优势。

衡量芯片在自动驾驶应用中有效性的真正标准，在于其在各种神经网络任务中每秒可处理帧数的能力。例如，EyeQ5每秒仅能处理91帧的像素标注神经网络，而EyeQ6 High每秒可处理超过1000帧，效率提高了十倍以上。这一升级不仅来自于更高的时钟速度，还源于XNN的专用架构，该架构针对特定应用的高效利用进行了优化。

例如，英伟达Orin芯片的算力可达到275 TOPS，相比之下，其原始数据可能更胜我们一筹。然而，在运行标准的ResNet-50网络时，两者的帧数处理能力差距仅为2倍。

这表明，仅凭TOPS并不足以衡量芯片的有效性；环境和效率才是关键。总体而言，EyeQ6High的设计侧重于量身定制的功能和效率，并辅以强大的软件堆栈（在各种加速器之间优化任务分配）。从本质上讲，EyeQ6 High的真正优势在于它的智能设计。而这种为高效处理特定任务而量身定制的设计证明，单纯TOPS数据并不能反映其真正的性能。

总而言之，Mobileye在人工智能领域的专业技术与为提高效率而优化的专用硬件相结合，为实现区域可扩展的自动驾驶技术开辟了一条清晰的道路。随着我们不断获得突破，我们正一步步实现完全自动驾驶的未来愿景。