等你下一次不管是用谷歌搜索引擎搜索問題也好,還是在谷歌地圖上找一家電影院的位置也罷,請你記住,在你看不見的地方,正有一個巨大的大腦在為你提供相關(guān)搜索結(jié)果,使你不至于在開車時迷了路。
當(dāng)然,這里說的并不是人的大腦,而是網(wǎng)絡(luò)搜索巨頭谷歌的“谷歌大腦”(Google Brain)研究團(tuán)隊?!敦敻弧酚浾吡_杰·帕洛夫曾專門撰文揭開了這支團(tuán)隊的神秘面紗。“谷歌大腦”研究團(tuán)隊迄今已經(jīng)開發(fā)了1000多個所謂的“深度學(xué)習(xí)”項目,它們也是YouTube、谷歌翻譯、谷歌照片等近年來谷歌公司多個成功產(chǎn)品背后的大功臣。通過深度學(xué)習(xí)技術(shù),研究人員能夠?qū)⒑A繑?shù)據(jù)輸入“神經(jīng)元網(wǎng)絡(luò)”軟件系統(tǒng)進(jìn)行處理,該系統(tǒng)能夠以人腦完全無法企及的速度,在海量數(shù)據(jù)中進(jìn)行學(xué)習(xí)和模式分析。
近日,“谷歌大腦”團(tuán)隊的創(chuàng)始人和負(fù)責(zé)人之一的杰夫·迪恩接受了《財富》雜志專訪,并談到了人工智能領(lǐng)域的研究進(jìn)展及其帶來的挑戰(zhàn),以及人工智能技術(shù)在谷歌產(chǎn)品中的應(yīng)用。出于篇幅考慮,以下采訪稿有刪節(jié)。
問:在推動人工智能領(lǐng)域研究的過程中,科研人員主要面臨哪些挑戰(zhàn)?
人類的學(xué)習(xí)有大量內(nèi)容來自無監(jiān)督式的學(xué)習(xí),也就是說,你只是在觀察周圍的世界,理解事物的道理。這是機(jī)器學(xué)習(xí)研究的一個非?;钴S的領(lǐng)域,但目前研究的進(jìn)展與監(jiān)督式學(xué)習(xí)還是不能比擬的。
也就是說,無監(jiān)督式學(xué)習(xí)指的是一個人通過觀察和感知進(jìn)行的學(xué)習(xí),如果計算機(jī)也能自行進(jìn)行觀察和感知,就能幫助我們解決更復(fù)雜的問題了?
是的,人類的洞察力主要是通過無監(jiān)督式學(xué)習(xí)訓(xùn)練出來的。你從小就會觀察世界,但偶爾你也會得到一些監(jiān)督式學(xué)習(xí)的信號,比如有人會告訴你:“那是一只長頸鹿”或“那是一輛小汽車”。你獲了這些少量的監(jiān)督式信息后,你的心智模式就會自然地對其產(chǎn)生回應(yīng)。
我們需要將監(jiān)督式和非監(jiān)督式學(xué)習(xí)更緊密地結(jié)合起來。不過以我們大部分機(jī)器學(xué)習(xí)系統(tǒng)的工作模式來看,我們現(xiàn)在還沒有完全進(jìn)展到那個地步。
你能解釋一下什么是“強(qiáng)化學(xué)習(xí)”技術(shù)嗎?
“強(qiáng)化學(xué)習(xí)”背后的理念是,你并不一定理解你可能要采取的行動,所以你會先嘗試你應(yīng)該采取的一系列行動,比如你覺得某個想法很好,就可以先嘗試一下,然后觀察外界的反應(yīng)。這就好比玩桌游,你可以針對對手的舉動做出回應(yīng)。最終在一系列的類似行為之后,你就會獲得某種獎勵信號。
強(qiáng)化學(xué)習(xí)的理念就是,在你獲得獎勵信號的同時,可以將功勞或過錯分配給你在嘗試過程中采取的所有行動。這項技術(shù)在今天的某些領(lǐng)域的確非常有效。
我覺得強(qiáng)化學(xué)習(xí)面臨的一些挑戰(zhàn)主要集中在當(dāng)你可以采取的行為狀態(tài)極為寬泛的時候。在真實(shí)世界中,人類在任何給定的時候都可以采取一系列極為寬泛的行為。而在你玩桌游的時候,你能采取的只有有限的一系列行為,因?yàn)橛螒虻囊?guī)則限制了你,而且獎勵信號也要明確得多——不是贏就是輸。
如果我的目標(biāo)是泡一杯咖啡之類的,那我可能采取的潛在行為就相當(dāng)寬泛了,而獎勵信號也沒有那么明顯了。
不過你們還是可以將步驟分解開,對吧?比如,如果你想泡一杯咖啡,你就可以通過學(xué)習(xí)得知,如果你在沖泡之前不將咖啡豆充分研磨,泡出來的咖啡就不會好喝。
對。我認(rèn)為增強(qiáng)學(xué)習(xí)的一個特點(diǎn)就是它需要探索,所以在物理系統(tǒng)環(huán)境下使用它往往有些困難。不過我們已經(jīng)開始嘗試在機(jī)器人上使用這種技術(shù)了。當(dāng)機(jī)器人要需要采取某些行動中,它在特定一天內(nèi)可以采取的行為是有限的。但是如果使用計算機(jī)模擬的話,就可以輕易地使用大量計算機(jī)獲得上百萬個樣本。
谷歌已經(jīng)開始將強(qiáng)化學(xué)習(xí)技術(shù)用在核心搜索產(chǎn)品上了嗎?
我們通過與DeepMind(一家人工智能領(lǐng)域的創(chuàng)業(yè)公司,2014年被谷歌收購)和我們的數(shù)據(jù)中心運(yùn)營人員的共同努力,已經(jīng)將強(qiáng)化學(xué)習(xí)技術(shù)應(yīng)用到了我們的核心產(chǎn)品上。他們還將這項技術(shù)運(yùn)用在了數(shù)據(jù)中心的空調(diào)溫控系統(tǒng)上,在大大降低能耗的同時,達(dá)到了相同的、安全的冷卻效果和運(yùn)行條件。它能探索溫控旋鈕的哪種設(shè)置是合理的,以及當(dāng)你改變運(yùn)行條件時應(yīng)該如何做出響應(yīng)。
通過強(qiáng)化學(xué)習(xí)技術(shù),他們能夠探索這18個或者更多個溫控旋鈕的最優(yōu)設(shè)置,而這可能是連專門負(fù)責(zé)溫控的工作人員都沒有做過的。熟悉溫控系統(tǒng)的人可能會覺得:“這個設(shè)置真奇怪。”然而事實(shí)上它的工作效果非常好。
什么樣的任務(wù)更適合應(yīng)用強(qiáng)化學(xué)習(xí)技術(shù)?
上面說的數(shù)據(jù)中心這個案例之所以效果很好,就是因?yàn)樵谝欢谓o定時間內(nèi)并沒有太多不同的行為。溫控系統(tǒng)大概有18個溫控旋鈕,你可以把一個旋鈕調(diào)高或調(diào)低,結(jié)果都是很容易衡量的。只要你在可以接受的適當(dāng)溫度范圍內(nèi)運(yùn)行,你的能耗利用率就會更好。從這個角度看,這幾乎是一個理想的強(qiáng)化學(xué)習(xí)技術(shù)的使用案例。
而至于在網(wǎng)絡(luò)搜索中,我應(yīng)該顯示哪些搜索結(jié)果,這應(yīng)該是強(qiáng)化學(xué)習(xí)技術(shù)的運(yùn)用效果稍差的一個用例了。針對不同的搜索提問,我可以選擇顯示的搜索結(jié)果的面是很寬的,而且獎勵信號也不明確。比方說一名用戶看到了搜索結(jié)果,至于他心里喜不喜歡這個搜索結(jié)果,這是很不明顯的。
如果他們不喜歡某一搜索結(jié)果,你連衡量它都很難吧?
是的,的確有點(diǎn)棘手。我認(rèn)為這個例子就能說明強(qiáng)化學(xué)習(xí)技術(shù)可能還不夠成熟,在這種獎勵信號不夠明確、約束條件太少的環(huán)境下,還不能真正有效地運(yùn)行。
你們研究出來的這些技術(shù)要想應(yīng)用到人們?nèi)粘J褂玫漠a(chǎn)品中,還將面臨哪些最大的挑戰(zhàn)?
首先,很多機(jī)器學(xué)習(xí)解決方案和針對這些解決方案的研究是可以在各個不同領(lǐng)域重復(fù)使用的。比如我們與谷歌地圖團(tuán)隊就在某些研究上展開了合作。他們希望能夠識別出街景圖片中的所有商戶名稱和標(biāo)志牌,以更深入地了解這個世界——比如確定這究竟是一家披薩店還是別的什么。
事實(shí)證明,要想識別這些圖像中的文字,你可以對一個機(jī)器學(xué)習(xí)模型進(jìn)行“訓(xùn)練”,給它一些人們在文字周圍畫圈或畫框的樣本數(shù)據(jù)。這樣一來,機(jī)器學(xué)習(xí)模型就會學(xué)會分辨圖像中的哪些部分包含了文字。
這項能力總體還是很有用的。谷歌團(tuán)隊的另一部分人還將該技術(shù)運(yùn)用到了一項衛(wèi)星圖像分析項目中,主要用來分辨美國和全世界的建筑物的房頂,以估算太陽能電池板在房頂上的安裝位置。
我們還發(fā)現(xiàn),同樣的模型還能協(xié)助我們進(jìn)行醫(yī)學(xué)影響分析方面的一些初級工作。比如說你有一些醫(yī)學(xué)影響,你想在其中發(fā)現(xiàn)一些與臨床相關(guān)的有趣的部分,你就可以用這個模型來幫忙。