自動駕駛90%的問題已解決 但距離成功還差太遠(yuǎn)
2018-04-17 16:49:05
來源: 網(wǎng)易智能 熱度:

在上周O'Reilly和英特爾聯(lián)合主辦的AI Conference 2018北京站大會上,Uber資深研究科學(xué)家、哥倫比亞大學(xué)計算機(jī)科學(xué)系兼職教授Erran Li發(fā)表了演講,分享了自動駕駛的新發(fā)展以及挑戰(zhàn)。
Erran Li稱,目前Uber的自動駕駛系統(tǒng)有360度的雷達(dá)系統(tǒng),也有RGB的鏡頭,理論上來講車當(dāng)中的硬件傳感器比人的眼睛和耳朵這要做得更好。但是在軟件上我們要解決3D的物體探測、物體運(yùn)動以及決策的問題。
Erran Li認(rèn)為,在自動駕駛當(dāng)中,如果你把90%的問題都掃除了,那么剩下10%甚至要花100倍的精力來做。對于自動駕駛未來還有一些挑戰(zhàn),需要一些本質(zhì)性的突破。
以下為Erran Li演講實錄:
Erran Li:大家好,今天我想為大家分享一下未來在自動駕駛方面的一些新的發(fā)展以及挑戰(zhàn)。
事實上,人和其他的人類的代理可以說是無處不在的,Uber造了一個自動駕駛的車,它可以駕駛的比普通的人更加好。我們可能會騎車,可能會駕車,也可能只是在散步,所以自動駕駛需要識別各種交通的信號,比如說有信號燈,還有一些交通方面的指示牌,所以我們需要處理各種各樣的情況。大家可以看到這輛車,事實上它在遠(yuǎn)離,我們需要搞清楚這輛車為什么后退,它的意圖是什么。所以我們怎么樣來構(gòu)建這樣的一個系統(tǒng)?要比普通的人駕駛的更好,我們?nèi)绾蝸硖幚磉@個復(fù)雜的情況?我想大家在北京開車都有經(jīng)驗,可能北京的路況比這個要復(fù)雜得多。
這里有硬件的情況,也有軟件的情況,大家可以看到,比如說Uber的自動駕駛系統(tǒng),我們有360度的雷達(dá)系統(tǒng),我們也有RGB的鏡頭,理論上來講車當(dāng)中的硬件傳感器比我們?nèi)说难劬投溥@種傳感要做得更好。
軟件是怎樣的一種情況?我們是否用人工的來編寫軟件,來處理所有這些可能遇到的復(fù)雜的情況呢?我想所有會開車的人,或者說所有的來設(shè)計這些系統(tǒng)的人都不會用手工來編程。我們事實上可以運(yùn)用海量的數(shù)據(jù),來讓我們的計算機(jī)進(jìn)行自我學(xué)習(xí),處理這些復(fù)雜的情況。在機(jī)器學(xué)習(xí)的過程當(dāng)中,我們想要解決什么問題和解決的結(jié)果是什么?
我們首先要解決的問題就是3D的物體探測。大家可以看到這個視角上面激光雷達(dá)的情況,可以看到我們可以對每一個物體都建立輸出和輸入,都是3D的。它可能是一個人,也可能是一個物體,我們?nèi)绾谓鉀Q這個問題?我們用深度學(xué)習(xí)的建模,這是一個活動中的模型。我們要探測出身邊所有的這些車輛,而且也把它用一個非常精致的盒子標(biāo)志出來。在探測的過程當(dāng)中,用這種標(biāo)示的方面,試圖能夠給我們解決一些問題。問題在于除了我們需要探測到,而且我們也要在一秒鐘當(dāng)中它們會發(fā)生什么樣的情況,如何來進(jìn)行跟蹤。這是一個跟蹤的問題。一般來說,我們都是用篩選器來做。在深層的建模當(dāng)中,同樣的數(shù)字就顯示出了同樣的一輛車在各種不同的框架當(dāng)中的情形。大家可以看到,深層學(xué)習(xí)的模型跟蹤表現(xiàn)還是不錯的。
除此之外,除了探測、追蹤以外,我們也需要預(yù)測這些物體會向哪個方向行動??梢钥吹竭@些活動中的物體,不奇怪的是我們可以用預(yù)測的建模來做到這一點(diǎn),大家可以看到各個不同的活動中的物體,他們可以有多種行進(jìn)軌道,我們也可以預(yù)測這些多種的行進(jìn)軌道,而且把它們排一個層次排序。在這個路口當(dāng)中有多種軌道,綠色的軌道有三種情況。
我們?nèi)〉靡粋€很良好進(jìn)展的就是決策的過程。在決策的模型當(dāng)中,我們也取得了長足的進(jìn)展。可以看到深層學(xué)習(xí)的模型當(dāng)中,我們掌握了控制度,比如說我們有黑盒的深層學(xué)習(xí)的模型,這是一個很好的模型。這是一個在活動中的可以看到一個模擬的模型,深層學(xué)習(xí)盡管在天氣不太好的情況下,可以說也跟著道路跟得不錯。
我們是否已經(jīng)解決了所有的問題?我們能不能立刻看到身邊到處都是自動駕駛汽車呢?事實上在自動駕駛當(dāng)中,如果你把90%的問題都掃除了,那么剩下10%你可能要花10倍的精力來做。我們可以宣稱說,我們可能已經(jīng)把90%的問題都解決了,但是我們?nèi)匀贿€有10%的障礙沒有掃除。有的人說不是這樣的,可能我們花的不是10倍的精力,也許可能要花100倍的精力,無論幾倍,我們都需要花更大的精力來攻克難關(guān)?,F(xiàn)在我們解決了90%問題的這些技術(shù),它很有可能不是我們來解決剩下一公里問題的技術(shù)。我們未來有一些挑戰(zhàn),需要一些本質(zhì)性的突破。
問題眾多,下面給大家只列舉出其中的一些。大家可以看到,在深層學(xué)習(xí)的模型當(dāng)中有一些表達(dá),這些表達(dá)并不具備“魯棒性”,它與我們?nèi)祟悓W(xué)習(xí)的表達(dá)是不一樣的。我們可能用黑白的貼紙放在這個上面作為停止符,但是機(jī)器學(xué)習(xí)卻無法識別,它們可能沒有辦法識別這是一個停止符,他們可能只是認(rèn)為這是一個限速符。所以我們的研究當(dāng)中,這些問題我們也做了很多的努力,也取得了不少的成功。但是這種分類打分的方法還是很難的,所以大家可以看到,這些深層學(xué)習(xí)的模型在目前已經(jīng)有很多可以運(yùn)用了。
我們需要做的是什么?我們需要學(xué)習(xí)魯棒和抽象的表達(dá)。因為我們?nèi)祟惖囊曈X可以說對這些攻擊是非常魯棒的,我們怎么樣從人類視覺當(dāng)中學(xué)到一些洞見和洞察?還有理解這個情景,要掌握情景,了解人類的行動和人類的意圖。我們在駕駛的過程當(dāng)中很容易就能夠覺察出其他駕駛員的意圖,但是深度學(xué)習(xí)就有困難了,我們在情景理解方面進(jìn)步還不夠。
最后的挑戰(zhàn)是決策過程,如果大家再考慮一下這個問題,我們的大腦是通用智能。我們?nèi)绻麑W⒂谝粋€問題,就能做出比較好的決策。但是我們還沒有達(dá)到人工智能這種水平,我們可能還需要通用智能來解決駕駛的問題,但是面臨著一個很大的挑戰(zhàn)。怎么樣能夠做出序列性的決策?目前的規(guī)劃,設(shè)想其他人類的代理是被動的,盡管他們可能在運(yùn)動,但是他們是有自己未來的軌道的,也就是我們假設(shè)他們是被動的,只能解決了90%的問題,但是最后一公里還解決不了。我們所需要的是一個框架,在一個多代理的環(huán)境當(dāng)中進(jìn)行多框架的決策。我們可以了解其他決策者的意圖,而且能夠構(gòu)建這種駕駛的政策,讓我們能夠完成各種工作,而且駕馭各種紛繁復(fù)雜的情況.
下一篇:寫在自動駕駛最危難的時候上一篇:自動駕駛的時代來了!聽各方專家怎么說
責(zé)任編輯:向宜芳