Skip to content

為何自動駕駛汽車不需要雷達?特斯拉首席AI科學家說….

劃重點

1、對於自動駕駛汽車到底需要哪些技術支持,不同公司和研究人員意見不同,特斯拉使用基於純視覺係統的自動駕駛方法。

2、特斯拉已經從部分車輛中移除了雷達等傳感器,隻是用攝像頭支持的純視覺係統,並認為這才是自動駕駛的未來發展方向。

3、特斯拉工程師開發出一種深度學習係統,該係統可以對物體進行深度、速度和加速度檢測,並決定將其作為有監督學習問題來對待。

4、特斯拉在全球銷售了數百萬輛裝有攝像頭的汽車,可以很好地收集訓練汽車視覺深度學習模型所需的數據。

5、特斯拉需要非常高效和設計良好的神經網絡,以最大限度地利用他們收集的高質量數據集,為此其創建了分層深度學習體係結構。

7月4日消息,製造全自動駕駛汽車需要哪些技術支持?對於這個問題的答案,不同公司和研究人員意見不一。實際上,實現自動駕駛的方法有很多,從僅需攝像頭和計算機視覺到計算機視覺與先進傳感器相結合等不一而足。其中,特斯拉始終是基於純視覺自動駕駛方法的擁護者,在今年的計算機視覺與模式識別會議(CVPR)上,該公司首席AI科學家安德烈·卡帕西(Andrej
Karpathy)解釋了原因。

為何自動駕駛汽車不需要雷達?特斯拉首席AI科學家說....
過去幾年,卡帕西始終負責領導著特斯拉的自動駕駛項目。他在CVPR
2021自動駕駛研討會上發表講話,詳細介紹了特斯拉是如何開發深度學習係統的,這些係統隻需要視頻輸入就能理解汽車的周圍環境。卡帕西還認為,特斯拉最有可能讓基於視覺的自動駕駛汽車成為現實。

通用計算機視覺係統

深度神經網絡是自動駕駛技術堆棧的主要組成部分之一,主要分析車載攝像頭中的道路、標誌、汽車、障礙物和行人。但深度學習在檢測圖像中的對象時也會出錯,為此大多數自動駕駛汽車公司(包括穀歌母公司Alphabet旗下自動駕駛汽車子公司Waymo)都使用激光雷達,它可通過向各個方向發射激光束來創建汽車周圍3D地圖。激光雷達提供了額外的信息,可以填補神經網絡留下的空白。

然而,將激光雷達添加到自動駕駛技術堆棧中也十分複雜。卡帕西說:“你必須用激光雷達預先繪製環境地圖,然後必須創建高清地圖,並將所有車道和紅綠燈標誌納入其中,還要弄清楚它們如何相互作用。在測試時,你隻需定位到該地圖即可駕車四處走動。然而,要精確繪製自動駕駛汽車將行駛每個地點的地圖是極其困難的。同時,收集、構建和維護這些高清激光雷達地圖缺乏可擴展性,要使這些基礎設施保持最新也非常困難。”

特斯拉在其自動駕駛技術堆棧中不使用激光雷達和高清地圖。卡帕西解釋說:“所有發生的事情,都是第一次發生在車裏,這基於車身周圍的八個攝像頭拍攝的視頻。”

自動駕駛技術必須弄清楚車道在哪裏,紅綠燈在哪裏,它們的狀態怎樣,哪些是與車輛相關的。而且這項技術必須在沒有任何關於它正在導航的道路的預定義信息情況下完成所有這些操作。卡帕西承認,基於視覺的自動駕駛在技術上更加困難,因為它需要僅基於視頻饋送就能運行的神經網絡。但他說:“當你把它真正投入使用,它就像是通用計算機視覺係統,基本上可以部署在地球上的任何地方。”

有了通用視覺係統,你的車就不再需要任何輔助裝置了。卡帕西表示,特斯拉已經在朝這個方向發展了。此前,該公司的汽車使用雷達和攝像頭相結合的方式支持自動駕駛,但其最近開始推出沒有配備雷達的汽車。他說:“我們移除了雷達,這些車隻靠視覺駕駛。因為特斯拉的深度學習係統表現已經比雷達好100倍,現在雷達開始拖後腿。”

有監督學習

反對純計算機視覺自動駕駛方法的主要論點是,神經網絡是否可以在沒有激光雷達高清地圖幫助的情況下進行測距,並估計存在的不確定性。卡帕西說:“顯然,人類靠視覺開車,所以我們的神經網絡能夠處理視覺輸入,以了解我們周圍物體的深度和速度。但最大的問題是,合成神經網絡是否也能做到這一點。我認為,在過去的幾個月裏,我們內部對這個問題的回答是明確而肯定的。”

特斯拉的工程師們想要開發一種深度學習係統,該係統可以對物體進行深度、速度和加速度的檢測。他們決定將這一挑戰作為一個有監督學習問題來對待。在這個問題中,神經網絡在對注釋數據進行訓練後,學習檢測對象及其相關屬性。
為何自動駕駛汽車不需要雷達?特斯拉首席AI科學家說....
為了訓練他們的深度學習架構,特斯拉團隊需要一個由數百萬個視頻組成的海量數據集,並仔細地用它們所包含的對象及其屬性進行注釋。創建自動駕駛汽車數據集尤其棘手,工程師必須確保找到不太常見的道路設置和邊緣情況。卡帕西表示:“當你有了大型的、幹淨的、多樣化的數據集,你在上麵訓練大型的神經網絡時,我們在實踐中發現有成功的可能性。”

自動標記數據集

特斯拉在全球銷售了數百萬輛裝有攝像頭的汽車,可以很好地收集訓練汽車視覺深度學習模型所需的數據。特斯拉自動駕駛團隊積累了1.5PB的數據,其中包括100萬個10秒長的視頻和60億個用邊界框、深度和速度標注的對象。但給這樣的數據集貼上標簽是個巨大的挑戰。一種方法是通過數據標簽公司或Amazon
Turk等在線平台對其進行手動注釋。但這將需要大量的人工,可能需要巨額支出,而且整個過程十分緩慢。

取而代之的是,特斯拉團隊使用了一種自動標簽技術,該技術結合了神經網絡、雷達數據和人工審查。由於數據集是離線注釋的,神經網絡可以回播視頻,將其預測與地麵事實進行比較,並調整其參數。這與所謂的“測試時間推理”形成對比,在後者的情況下,所有事情都是實時發生的,深度學習模型無法進行追索。

離線注釋還使工程師能夠應用非常強大的計算密集型對象檢測網絡,這些網絡不能部署在汽車上,也不能用於實時、低延遲的應用。他們使用雷達傳感器數據進一步驗證了神經網絡的推論。所有這些都提高了標簽網絡的精度。卡帕西說:“如果你處於離線狀態,可以從中獲益,所以你可以更好地冷靜地融合不同的傳感器數據。此外,你還可以讓人類參與近來,他們可以進行清理、驗證、編輯等工作。”

不過,卡帕西沒有說明需要多少人力才能對自動標簽係統進行最終更正,但人類認知在引導自動標簽係統走向正確方向方麵發揮了關鍵作用。

在開發數據集時,特斯拉團隊發現了200多個觸發器,這些觸發器表明物體檢測需要調整。這些問題包括不同攝像頭的檢測結果不一致,或者攝像頭和雷達之間的檢測結果不一致。他們還確定了可能需要特別注意的場景,如隧道進出和頂部有物體的汽車。

開發和掌握所有這些觸發器花了四個月的時間。隨著標簽網絡變得更好,它被以“影子模式”部署,這意味著它被安裝在消費汽車上,在不向汽車發出命令的情況下靜默運行,並將網絡的輸出與傳統網絡、雷達和驅動程序的行為進行比較。

特斯拉團隊經曆了七次數據工程迭代。他們從一個初始數據集開始,並在此基礎上訓練他們的神經網絡。然後,他們在真實汽車的“影子模式”下部署深度學習,並使用觸發器來檢測不一致、錯誤和特殊情況。然後對錯誤進行修改、更正。如果有必要,他們還會將新數據添加到數據集中。卡帕西說:“我們一遍又一遍地重複這個循環,直到網絡變得非常棒!”

因此,該體係結構可以更好地描述為一個具有巧妙分工的半自動標簽係統。在該係統中,神經網絡負責重複性的工作,而人類負責解決高級認知問題和罕見案例。

有趣的是,當一位與會者問卡帕西觸發器的生成是否可以自動化時,他說:“自動化觸發器是個非常棘手的場景,因為你可以有通用的觸發器,但它們不能正確地表示錯誤模式。例如,很難自動具有觸發進入和退出隧道的觸發器。這是你作為一個人必須通過直覺獲得的能力,這是個巨大挑戰,目前還不清楚其具體原理。”

分層深度學習體係結構

特斯拉的自動駕駛團隊需要非常高效和設計良好的神經網絡,以最大限度地利用他們收集的高質量數據集。該公司創建了一個由不同神經網絡組成的分層深度學習體係結構,這些神經網絡負責處理信息,並將其輸出反饋給下一組網絡。

為何自動駕駛汽車不需要雷達?特斯拉首席AI科學家說....
深度學習模型使用卷積神經網絡從安裝在汽車周圍的八個攝像頭拍攝的視頻中提取特征,並使用變換神經網絡將它們融合在一起。然後,它將它們在時間上融合,這對於軌跡預測和平滑推理不一致等任務非常重要。然後,空間和時間特征被輸入到神經網絡的分層結構中,卡帕西將這種結構描述為頭部、軀體和終端。他說:“你之所以想要這種分層結構,是因為你對大量的輸出感興趣,但你負擔不起每個輸出都有對應神經網絡的代價。”

分層結構使得特斯拉可以為執行不同的任務重用組件,並允許在不同的推理路徑之間共享特征。

網絡模塊化架構的另一個好處是分布式開發的可能性。特斯拉目前雇傭了一個龐大的機器學習工程師團隊,致力於自動駕駛神經網絡的研發。他們中的每一個人都在網絡的某個小組件上工作,並將他們的研究結果插入到更大的網絡中。卡帕西說:“我們有個大約20人的團隊,他們全職負責訓練神經網絡。他們都在獨立的神經網絡上合作。”

垂直整合優勢

在CVPR的演講中,卡帕西分享了許多關於特斯拉正在用來訓練和微調其深度學習模型的超級計算機細節。整個計算群集由80個節點組成,每個節點包含8個英偉達A100
GPU和80 GB顯存,總計5760個GPU和超過450
TB的VRAM。這台超級計算機還具有10PB的NVME超高速存儲和640Tbps的聯網容量,以連接所有節點,並允許對神經網絡進行高效的分布式訓練。

特斯拉還擁有並製造安裝在其汽車內的AI芯片。卡帕西說:“這些芯片是專門為我們想要為全自動駕駛應用運行的神經網絡而設計的。”

特斯拉的一大優勢是垂直整合能力。該公司擁有整個自動駕駛汽車技術堆棧,它生產汽車和自動駕駛硬件,在收集已售出數百萬輛汽車各種遙測和視頻數據方麵處於獨特的地位。該公司還在其專有數據集、內部特殊計算集群上創建和訓練其神經網絡,並通過對其汽車進行影子測試來驗證和微調網絡。當然,特斯拉擁有一支由機器學習工程師、研究人員和硬件設計師組成的傑出團隊,可以將所有部件組合起來。

卡帕西說:“你可以在堆棧的所有層麵上共同設計,沒有第三方在拖你的後腿。你完全掌握了自己的命運,我認為這是不可思議的。”

這種創建數據、調整機器學習模型並將其部署在許多汽車上的垂直整合和重複循環,使特斯拉在實現僅限視覺的自動駕駛汽車能力方麵處於獨特的地位。在演講中,卡帕西展示了幾個例子,顯示新的神經網絡本身就超過了與雷達信息相結合的傳統ML模型。如果係統繼續改進,正如卡帕西所說,特斯拉可能會走上淘汰激光雷達的軌道。而且,任何其他公司可能都無法複製特斯拉的做法。

未解決的問題。

但問題仍然存在,在目前的狀態下,深度學習是否足以克服自動駕駛的所有挑戰。當然,目標檢測、速度和距離估計在駕駛中起著重要作用。但人類的視覺還具有許多其他複雜的功能,科學家們稱之為視覺的“暗物質”。這些都是對不同環境的視覺輸入和導航進行有意識和潛意識分析的重要組成部分。

深度學習模型也很難做出因果推理,當模型麵臨以前從未見過的新情況時,這可能是個巨大的障礙。因此,雖然特斯拉已經成功地創建了一個非常龐大和多樣化的數據集,但開放道路的環境非常複雜,可能會遇到許多出人意料或模型從未見過的情況。

AI社區的分歧在於,你是需要明確地將因果關係和推理集成到深度神經網絡中,還是可以通過“直接擬合”(Direct
Fit)克服因果關係障礙。在這種情況下,一個分布良好的大型數據集就足以實現通用的深度學習。特斯拉基於視覺的自動駕駛團隊似乎傾向於後者,但這項技術需要經受時間的考驗。

華客新聞 | 時事與歷史:為何自動駕駛汽車不需要雷達?特斯拉首席AI科學家說….