3月9日,上周五,由車東西兄弟單位智東西主辦的GTIC 2018全球AI芯片創(chuàng)新峰會在上海召開,大會邀請到來自芯片、安防、汽車和消費電子等領域的近40位業(yè)界翹楚到場分享研發(fā)AI芯片的經歷與思考。
整場大會有超過1萬人報名,并且有數千名觀眾到場,乃至于出現(xiàn)了大量觀眾因為沒座而不得不站在大廳外面觀看電視直播的情況。
在大會下午場的自動駕駛加速落地,AI芯片引領計算平臺”板塊,地平線公司的聯(lián)合創(chuàng)始人、算法副總裁黃暢做了主題為《AI芯片在自動駕駛的應用實踐》的主題演講,就地平線公司的產品研發(fā)歷程、AI芯片與傳統(tǒng)計算芯片的區(qū)別等關鍵問題進行了分享,下面為黃暢演講的要點精析。
▲黃暢
一、AI算法與AI芯片齊頭并進
地平線由前百度百度研究院副院長、百度深度學習實驗室主任余凱創(chuàng)辦于2015年7月,致力于為B端用戶提供涉及算法和硬件在內完整的嵌入式人工智能解決方案(機器人大腦),說白一點就是其完整方案里既包含有AI算法,又有AI芯片,還有工具鏈和云服務。
黃暢表示,機器人大腦需要做的不僅僅包括圖像和視頻感知,還包括語音、語義處理,以及決策、規(guī)劃等比較復雜比較高階的人工智能程序,同時也需要非常關注解決方案的性能、成本、功耗的平衡,因此地平線在研發(fā)之初,也遇到了一些困難。
那么地平線為什么要選擇這樣一條看上去比較復雜比較困難的路徑呢?黃暢解釋稱是受到圖靈獎獲得者、現(xiàn)代計算機的奠基人Alan Kay的影響。
據黃暢介紹,Alan Kay不僅提出了面向對象編程設計的概念,還曾說過一句對目前IT產業(yè)影響深遠的名言——“如果你真的關注軟件,就應該做自己的硬件”。正是這句名言,也促使喬布斯一直堅持軟硬件一體的產品開發(fā)策略,打造出了蘋果這樣的頂級科技巨頭。
同樣的,Alan Kay這句名言,也激勵了包括余凱、黃暢等人在內的地平線團隊走上了軟硬結合的道路。
二、地平線的3代AI芯片架構
黃暢在GTIC現(xiàn)場講到,如果按照智能決策處理順序,AI可以分成感知、建模、決策和規(guī)劃三個階段,基于這種分類,地平線也對應規(guī)劃了名為高斯、伯努利和貝葉斯的三代BPU架構。
▲地平線3代BPU架構
2017年12月,地平線正式推出了兩款AI芯片——征程1.0和旭日1.0。雖然兩者都基于高斯架構打造而來,但是用處卻大相徑庭,征程面向的是智能駕駛后裝市場,而旭日則主攻智能攝像頭領域。
黃暢稱,從AI處理器的發(fā)展變革可以看出,越是面向專門計算的芯片架構越能達到更好的功耗性能比,因此地平線就在高斯架構的基礎上同時推出了這兩款芯片,每款芯片都針對相應的領域進行專門設計,從而有利于發(fā)揮出最大運算效能。
性能上,征程1.0處理器能夠處理攝像頭拍攝的1080P@30幀的視頻流,并最多對其中200+個物體進行實時的跟蹤和識別,涉及行人、機動車、非機動車、車道線、交通標志牌、紅綠燈等多類交通元素,可實現(xiàn)FCW前部碰撞預警、LDW車道偏離預警等駕駛輔助功能。此外,地平線還推出了基于征程1.0芯片的量產后裝ADAS產品。
黃暢表示,地平線做第一代芯片還是比較順利的,但是也存在約束和限制。在第二代BPU架構伯努利中,地平線增加了其圖像識別的細粒度,并加入了建模的能力。在基于FPGA進行驗證的階段,伯努利架構就已經可同時處理來自攝像頭、雷達、激光雷達等傳感器的最多8路數據,以期能在其上做無人車所必須的傳感器數據融合功能。
由于細粒度得以提升,黃暢稱其第二代BPU架構能夠在像素級別進行感知,能夠更精確地分辨出路面、人體、汽車、建筑、樹木等物體,進行圖像分割。此外,更精準、更多路的感知結果將最終為環(huán)境的建模服務,可以從各個角度進行觀測。
▲二代BPU感知能力演示
從黃暢在現(xiàn)場通過視頻演示了基于伯努利架構的早期產品(FPGA)在高速公路、城市道路上進行感知測試的視頻來看,第二代BPU架構的計算能力確實較強,不管是識別、追蹤還是語義分割,都有不錯的效果。
三、用BPU提升AI計算效率
黃暢在進行完視頻演示后講到,其利用BPU給自動駕駛提供感知能力的核心理念是在不同尺度的空間中進行信息的融合,利用了非常底層的配準對齊,利用冗余度降低復雜度等軟件技術。
但他同時也強調道,僅有算法的進步是不夠的,“如果只有算法的進步,而計算的原器件(處理器)不相應進行迭代,就無法體現(xiàn)新技術的優(yōu)勢。即使經過精密設計過的CPU、GPU通用處理器也遠遠不能滿足現(xiàn)今的計算需求,使得器件利用率變得相當低。”
為此,地平線才推出了自主設計研發(fā)的BPU架構。據黃暢介紹,地平線的BPU是一款典型的異構多指令多數據的系統(tǒng),架構中心處理器是完整的系統(tǒng),存儲器架構設計進行了特別優(yōu)化,能使數據自由傳遞,進行多種計算,讓不同部件同時運轉起來,提高AI運算的效率。
▲BPU架構
那么為什么通用處理器的算理就不如BPU呢?
除了上述異構多指令多數據流計算架構對多種算法的支持,黃暢解釋道,“如果按照通用處理器的方法去做的話會非常難取舍,如果脫離開應用場景、算法不斷迭代以及對算法的預估,其實你對每個東西的取舍以及規(guī)模大小是無從下手的。而恰恰我們更加關注應用,關注算法的取舍,因此其在對芯片架構的取舍、規(guī)模以及元器件的掌握都比較準確。”
結語:AI芯片時代開啟
近兩年,已經有幾十年歷史的老技術——人工智能迅速躥紅,不僅出現(xiàn)在了科技圈,還出現(xiàn)在了電視、手機、音箱、APP,甚至是政府工作報告里,其火熱程度可見一斑。而這輪人工智能熱潮的崛起,又與深度學習和神經網絡等底層技術密切相關。
在深度學習框架、AI算法等軟件技術演進的同時,AI相關硬件也在發(fā)生變化。
2011年,谷歌等AI先行者主要使用CPU來推進AI項目,2012年,百度深度學習實驗室引入了業(yè)內比較前沿的通過GPU來運行深度學習算法的玩法。
但需要指出的是,雖然適合并行計算的GPU天生比CPU更適合做深度學習運算,但GPU與CPU本質上也都屬于通用處理器,因此其在深度學習這種單一領域,其單位計算性能不如ASIC這種特定用途的處理器那么強,乃至也不如可編程的FPGA。
而隨著深度學習、神經網絡等底層技術的持續(xù)演進與AI技術在自動駕駛、智慧城市、智慧金融等領域的落地與部署,人工智能技術對計算能力的需求繼續(xù)快速提升。
因此,百度深度學習實驗室在2014年又將FPGA引入了AI運算中;地平線在2015年推出了BPU架構;谷歌在2016年又推出了TPU等專用的AI芯片,進而正式拉開了AI芯片時代的大幕。