首頁

OBD車聯(lián)網(wǎng)T-BOX

干貨 | 吳恩達講了滿滿的幾黑板的全新AI課，全程手寫板書

2017-09-21 09:29:34 來源：量子位熱度:

給吳恩達三塊白板和一支馬克筆，聽他講一節(jié)精彩的課。

昨天，在O’reilly舉辦的AI Conference上，吳恩達做了個25分鐘的演講，主題依然是“AI is the new electricity”，但內(nèi)容可以說是充滿誠意非常干貨了。

吳恩達老師這節(jié)課，主要講了這四部分內(nèi)容：

AI能做什么？各種算法有多大商業(yè)價值？

做AI產(chǎn)品要注意什么？

怎樣成為真正的AI公司？

給AI領導者的建議

干貨摘錄如下：

吳恩達的老師的開場白，依然是AI像當年的電力一樣，正開始改變所有行業(yè)。

要理解AI，就要先進入我們的第一部分：

AI能做什么？

目前，AI技術做出的經(jīng)濟貢獻幾乎都來自監(jiān)督學習，也就是學習從A到B，從輸入到輸出的映射。

比如說，輸入一張照片，讓機器學會判斷這張照片是不是你，輸出0或1。

現(xiàn)在最賺錢的機器學習應用，應該說是在線廣告。在這個例子中，輸入是廣告和用戶信息，輸出是用戶會不會點擊這個廣告（還是0或1）。

監(jiān)督學習還可以應用在消費金融領域，輸入貸款申請信息，輸出用戶是否會還款。

過去幾年里，機器學習經(jīng)歷了迅速的發(fā)展，越來越擅長學習這類A到B的映射，創(chuàng)造了大規(guī)模的經(jīng)濟效益。

同時，AI的進步也體現(xiàn)在監(jiān)督學習的輸出不再限于0或1的數(shù)字。

比如說語音識別的任務，也是一種端到端的學習，輸入音頻，輸出文本。只要有足夠的數(shù)據(jù)，語音識別就能達到很好的效果。

這類算法為語音搜索、亞馬遜Alexa、蘋果Siri、百度DuerOS等等提供了基礎。

還有輸入英語輸出法語的機器翻譯，輸入文本輸出音頻的TTS（Text to Speech）等等，都是監(jiān)督學習的應用。

監(jiān)督學習的缺點是它需要大量的標注數(shù)據(jù)，這影響了它的普及。

經(jīng)常有人問我，為什么神經(jīng)網(wǎng)絡已經(jīng)存在了這么多年，AI卻近年來才開始快速發(fā)展？

很多人可能見過我畫這張圖：

橫軸是數(shù)據(jù)量，縱軸是算法的性能。

隨著數(shù)據(jù)量的增加，傳統(tǒng)機器學習算法的性能并沒有明顯提升，而神經(jīng)網(wǎng)絡的性能，會有比較明顯的提升，神經(jīng)網(wǎng)絡越大，性能的提升就越明顯。

為了達到最佳的性能，你需要兩樣東西：一是大量的數(shù)據(jù)，二是大型的神經(jīng)網(wǎng)絡。

還有一個問題，有很多人問我：機器學習中最大的趨勢是什么？算法如何創(chuàng)造價值？

現(xiàn)在來看，創(chuàng)造最多價值的還是監(jiān)督學習。

如果你問我監(jiān)督學習之后是什么，我認為遷移學習現(xiàn)在也開始創(chuàng)造不少經(jīng)濟效益?？赡芤驗檫@個概念不夠性感，所以人們談論得不多。

比如說你的算法從一個像ImageNet那樣的大數(shù)據(jù)集學到了圖像識別，然后用遷移學習，用到醫(yī)學影像診斷上。

而非監(jiān)督學習，我認為是非常好的長期研究項目。它也創(chuàng)造了一些經(jīng)濟價值，特別是在自然語言處理上。

強化學習也很有意思，我研究了很多年，現(xiàn)在也還在這方面做一些微小的工作。但是我認為，強化學習的輿論熱度和經(jīng)濟效益有點不成比例。

強化學習對數(shù)據(jù)的饑渴程度甚至比監(jiān)督學習更嚴重，要為強化學習算法獲取到足夠的數(shù)據(jù)非常難。

在打游戲這個領域，強化學習表現(xiàn)很好，這是因為在電子游戲中，算法可以重復玩無限次，獲取無限的數(shù)據(jù)。

在機器人領域，我們也可以建立一個模擬器，相當于能讓強化學習agent在其中模擬無人車、人形機器人，重復無限次“游戲”。

除了游戲和機器人領域之外，要把強化學習應用到商業(yè)和實踐中還有很長的路要走。

現(xiàn)在，監(jiān)督學習、遷移學習、非監(jiān)督學習、強化學習這四類算法所創(chuàng)造的經(jīng)濟效益是遞減的。

當然，這只是目前的情況。計算機學科不斷有新突破，每隔幾年就變個天。這四個領域中的任何一個都可能發(fā)生突破，幾年內(nèi)這個順序就可能要重排。

我注意到的另一件事情是，機器學習依靠結(jié)構化數(shù)據(jù)，比非結(jié)構化數(shù)據(jù)創(chuàng)造了更多的經(jīng)濟效益。

舉個結(jié)構化數(shù)據(jù)的例子，比如說你的數(shù)據(jù)庫記錄了用戶的交易情況，誰什么時候買了什么東西，誰什么時間給誰發(fā)了信息，這就是結(jié)構化數(shù)據(jù)。

而像圖像、音頻、自然語言等等，就是非結(jié)構化數(shù)據(jù)。

雖然非結(jié)構化數(shù)據(jù)聽起來更吸引人，輿論熱度更高，但結(jié)構化數(shù)據(jù)的價值在于它通常專屬于你的公司，比如說只有你的打車公司才有用戶什么時候叫車、等了多長時間這樣一個數(shù)據(jù)集。

所以，不要低估結(jié)構化數(shù)據(jù)結(jié)合深度學習所能創(chuàng)造的經(jīng)濟價值。

在前面談到的幾類學習算法中，單是監(jiān)督學習就已經(jīng)為公司、創(chuàng)業(yè)者創(chuàng)造了大量的經(jīng)濟價值和機會。

做AI產(chǎn)品要注意什么？

有一個很有意思的趨勢，是AI的崛起正改變著公司間競爭的基礎。

公司的壁壘不再是算法，而是數(shù)據(jù)。

當我建立一家新公司，會特地設計一個循環(huán)：

先為算法收集足夠的數(shù)據(jù)，這樣就能推出產(chǎn)品，然后通過這個產(chǎn)品來獲取用戶，用戶會提供更多的數(shù)據(jù)……

有了這個循環(huán)之后，對手就很難追趕你。

這方面有一個很明顯的例子：搜索公司。搜索公司有著大量的數(shù)據(jù)，顯示如果用戶搜了這個詞，就會傾向于點哪個鏈接。

我很清楚該如何構建搜索算法，但是如果沒有大型搜索公司那樣的數(shù)據(jù)集，簡直難以想象一個小團隊如何構建一個同樣優(yōu)秀的搜索引擎。這些數(shù)據(jù)資產(chǎn)就是最好的壁壘。

工程師們還需要清楚這一點：

AI的范圍，比監(jiān)督學習廣泛得多。我認為人們平時所說的AI，其實包含了好幾類工具：比如機器學習、圖模型、規(guī)劃算法、知識表示（知識圖譜）。

人們的關注點集中在機器學習和深度學習，很大程度上是因為其他工具的發(fā)展速度很平穩(wěn)。

如果我現(xiàn)在建立一個AI團隊，做AI項目，很多時候應該用圖模型，有時應該用知識圖譜，但是最大的機遇還是在于機器學習，這才是幾年來發(fā)展最快、出現(xiàn)突破的領域。

接下來我要和大家分享一下我看問題的框架。

計算機，或者說算法是怎樣知道該做什么的呢？它有兩個知識來源，一是數(shù)據(jù)，二是人工（human engineering）。

要解決不同的問題，該用的方法也不同。

比如說在線廣告，我們有那么多的數(shù)據(jù)，不需要太多的人工，深度學習算法就能學得很好。

但是在醫(yī)療領域，數(shù)據(jù)量就很少，可能只有幾百個樣例，這時就需要大量的人工，比如說用圖模型來引入人類知識。

也有一些領域，我們有一定數(shù)量的數(shù)據(jù)，但同時也需要人工來做特征工程。

當然，還要談一談工程師如何學習。

很多工程師想要進入AI領域，很多人會去上在線課程，但是有一個學習途徑被嚴重忽視了：讀論文，重現(xiàn)其中的研究。

當你讀了足夠多的論文，實現(xiàn)了足夠多的算法，它們都會內(nèi)化成你的知識和想法。

要培養(yǎng)機器學習工程師，我推薦的流程是：上（deeplearning.ai的）機器學習課程來打基礎，然后讀論文并復現(xiàn)其中的結(jié)果，另外，還要通過參加人工智能的會議來鞏固自己的基礎。

怎樣成為真正的AI公司？

我接下來要分享的這個觀點，可能是我今天所講的最重要的一件事。

從大約20年、25年前開始，我們開始看見互聯(lián)網(wǎng)時代崛起，互聯(lián)網(wǎng)成為一個重要的東西。

我從那個時代學到了一件重要的事：

商場 + 網(wǎng)站 ≠ 互聯(lián)網(wǎng)公司

我認識一家大型零售公司的CIO，有一次CEO對他說：我們在網(wǎng)上賣東西，亞馬遜也在網(wǎng)上賣東西，我們是一樣的。

不是的。

互聯(lián)網(wǎng)公司是如何定義的呢？不是看你有沒有網(wǎng)站，而是看做不做A/B測試、能不能快速迭代、是否由工程師和產(chǎn)品經(jīng)理來做決策。

這才是互聯(lián)網(wǎng)公司的精髓。

現(xiàn)在我們經(jīng)常聽人說“AI公司”。在AI時代，我們同樣要知道：

傳統(tǒng)科技公司 + 機器學習/神經(jīng)網(wǎng)絡 ≠ AI公司（全場笑）

公司里有幾個人在用神經(jīng)網(wǎng)絡，并不能讓你們成為一家AI公司，要有更深層的變化。

20年前，我并不知道A/B測試對互聯(lián)網(wǎng)公司來說有多重要。現(xiàn)在，我在想AI公司的核心是什么。

我認為，AI公司傾向于策略性地獲取數(shù)據(jù)。我曾經(jīng)用過這樣一種做法：在一個地區(qū)發(fā)布產(chǎn)品，為了在另一個地區(qū)發(fā)布產(chǎn)品而獲取數(shù)據(jù)，這個產(chǎn)品又是為了在下一個地區(qū)發(fā)布產(chǎn)品來獲取數(shù)據(jù)用的，如此循環(huán)。而所有產(chǎn)品加起來，都是為了獲取數(shù)據(jù)驅(qū)動一個更大的目標。

像Google和百度這樣的大型AI公司，都有著非常復雜的策略，為幾年后做好了準備。

第二點是比較戰(zhàn)術性的，你可能現(xiàn)在就可以開始施行：AI公司通常有統(tǒng)一的數(shù)據(jù)倉庫。

很多公司有很多數(shù)據(jù)倉庫，很分散，如果工程師想把這些數(shù)據(jù)放在一起來做點什么，可能需要和50個不同的人來溝通。

所以我認為建立一個統(tǒng)一的數(shù)據(jù)倉庫，所有的數(shù)據(jù)都存儲在一起是一種很好的策略。

另外，普遍的自動化和新的職位描述也是AI公司的重要特征。

比如說在移動互聯(lián)網(wǎng)時代，產(chǎn)品經(jīng)理在設計交互App的時候可能會畫個線框圖：