李飛飛高徒Andrej Karpathy加盟特斯拉,擔任人工智能與自動駕駛視覺總監(jiān)
剛剛得到的消息,科技汽車公司特斯拉宣布計算機視覺著名學者 Andrej Karpathy 加盟,他已成為該公司自動駕駛研究部門的一員。在此之前,Karpathy 是伊隆·馬斯克旗下的人工智能研究機構 OpenAI 的研究者。這位畢業(yè)于斯坦福大學的計算機視覺專家擁有人工智能領域的豐富履歷,他在博士期間曾師從于著名學者李飛飛,研究卷積/循環(huán)神經(jīng)網(wǎng)絡架構與計算機視覺應用。
在學習期間,Andrej Karpathy 還共同構建了斯坦福大學最受尊敬的深度學習教程,他在斯坦福大學的研究著重于構建一個神經(jīng)網(wǎng)絡系統(tǒng),通過識別圖像中離散的特征點用自然語言對圖片進行標注。此外,他還構建了一個反向系統(tǒng),通過用戶描述的自然語言(如「白色網(wǎng)球鞋」)來搜索圖片庫中的圖像。
從斯坦福畢業(yè)后,Karpathy 曾在谷歌研究院、DeepMind 等公司和機構實習,他的研究專注于深度學習。他在計算機視覺領域的專長顯然被特斯拉視為巨大的財富——這家著名公司一直試圖打造面向未來的自動駕駛技術。
Andrej Karpathy 在特斯拉的新職位是:人工智能和自動駕駛視覺總監(jiān)(Director of AI and Autopilot Vision),特斯拉表示,Karpathy 將直接向馬斯克負責,但同時也會與特斯拉副總裁、負責自動駕駛硬件與軟件工程的 Jim Keller 共同工作。
特斯拉宣布 Andrej Karpathy 加盟的聲明如下:
Andrej Karpathy,世界一流的計算機視覺和深度學習專家之一,現(xiàn)在已經(jīng)以人工智能和無人駕駛視覺總監(jiān)的身份加入了特斯拉,可以向 Elon Musk 直接進行匯報。Andrej 曾經(jīng)通過對 ImageNet 的研發(fā)給予計算機以視覺,通過對生成模型的開發(fā)給予計算機以想象力,并且通過強化學習給予其瀏覽互聯(lián)網(wǎng)的能力。
Andrej 在斯坦福大學拿到了他的計算機視覺博士學位,在那里他就可以應用深度神經(jīng)網(wǎng)絡來推導出圖像的復合形式。比如,不僅僅能簡單地識別圖片里有一只貓,還能識別出這是一個「橙色斑點」貓,正騎在一個棕色木板和紅色輪子制成的滑板上。他也創(chuàng)辦并且教授了「用于視覺識別的卷積神經(jīng)網(wǎng)絡」(「Convolutional Neural Networks for Visual Recognition」)這門課程,這是斯坦福大學的第一個深度學習課程,直到現(xiàn)在仍然處于業(yè)內(nèi)領先地位。(相關課程鏈接:http://cs231n.stanford.edu/2016/)(http://cs231n.stanford.edu/2016/%EF%BC%89)
Andrej 將會和 Jim Keller 緊密配合,后者現(xiàn)在已經(jīng)全權負責無人駕駛的硬件和軟件開發(fā)。
Karpathy 的個人簡歷時間線
個人簡介:Andrej Karpathy 是深度學習計算機視覺領域、生成式模型與強化學習領域的研究員。博士期間師從李飛飛研究卷積/循環(huán)神經(jīng)網(wǎng)絡架構,以及它們在計算機視覺、自然語言處理以及二者交叉領域的應用。在讀博期間,兩次在谷歌實習,研究在 Youtube 視頻上的大規(guī)模特征學習,2015 年在 DeepMind 實習,研究深度強化學習。與李飛飛一起工作時,設計、教授了新的斯坦福課程《卷積網(wǎng)絡進行視覺識別(CS231n)》。博士畢業(yè)論文為《CONNECTING IMAGES AND NATURAL LANGUAGE》。
論文:連接圖像與自然語言(CONNECTING IMAGES AND NATURAL LANGUAGE)
論文鏈接:http://cs.stanford.edu/people/karpathy/main.pdf
審核導師
摘要:人工智能領域的一個長期目標是開發(fā)能夠感知和理解我們周圍豐富的視覺世界,并能使用自然語言與我們進行關于其的交流的代理。由于近些年來計算基礎設施、數(shù)據(jù)收集和算法的發(fā)展,人們在這一目標的實現(xiàn)上已經(jīng)取得了顯著的進步。這些進步在視覺識別上尤為迅速——現(xiàn)在計算機已能以可與人類媲美的表現(xiàn)對圖像進行分類,甚至在一些情況下超越人類,比如識別狗的品種。但是,盡管有許多激動人心的進展,但大部分視覺識別方面的進步仍然是在給一張圖像分配一個或多個離散的標簽(如,人、船、鍵盤等等)方面。
在這篇學位論文中,我們開發(fā)了讓我們可以將視覺數(shù)據(jù)領域和自然語言話語領域連接起來的模型和技術,從而讓我們可以實現(xiàn)兩個領域中元素的互譯。具體來說,首先我們引入了一個可以同時將圖像和句子嵌入到一個共有的多模態(tài)嵌入空間(multi-modal embedding space)中的模型。然后這個空間讓我們可以識別描繪了一個任意句子描述的圖像,而且反過來我們還可以找出描述任意圖像的句子。其次,我們還開發(fā)了一個圖像描述模型(image captioning model),該模型可以根據(jù)輸入其的圖像直接生成一個句子描述——該描述并不局限于人工編寫的有限選擇集合。最后,我們描述了一個可以定位和描述圖像中所有顯著部分的模型。我們的研究表明這個模型還可以反向使用:以任意描述(如:白色網(wǎng)球鞋)作為輸入,然后有效地在一個大型的圖像集合中定位其所描述的概念。我們認為這些模型、它們內(nèi)部所使用的技術以及它們可以帶來的交互是實現(xiàn)人工智能之路上的一塊墊腳石,而且圖像和自然語言之間的連接也能帶來許多實用的益處和馬上就有價值的應用。
從建模的角度來看,我們的貢獻不在于設計和展現(xiàn)了能以復雜的處理流程處理圖像和句子的明確算法,而在于卷積和循環(huán)神經(jīng)網(wǎng)絡架構的混合設計,這種設計可以在一個單個網(wǎng)絡中將視覺數(shù)據(jù)和自然語言話語連接起來。因此,圖像、句子和關聯(lián)它們的多模態(tài)嵌入結構的計算處理會在優(yōu)化損失函數(shù)的過程中自動涌現(xiàn),該優(yōu)化考慮網(wǎng)絡在圖像及其描述的訓練數(shù)據(jù)集上的參數(shù)。這種方法享有許多神經(jīng)網(wǎng)絡的優(yōu)點,其中包括簡單的均質(zhì)計算的使用,這讓其易于在硬件上實現(xiàn)并行;以及強大的性能——由于端到端訓練(end-to-end training)可以將這個問題表示成單個優(yōu)化問題,其中該模型的所有組件都具有一個相同的最終目標。我們的研究表明我們的模型在需要圖像和自然語言的聯(lián)合處理的任務中推進了當前最佳的表現(xiàn),而且我們可以一種能促進對該網(wǎng)絡的預測的可解讀視覺檢查的方式來設計這一架構。
本文為機器之心編譯,轉載請聯(lián)系本公眾號獲得授權。
相關推薦
依照美國證券交易委員會的備案,無人駕駛汽車創(chuàng)業(yè)公司 Aurora 已籌得超過 300 萬美元的風投基金,投資方不詳,由于某位 Allen&Company 的董事同時擔任了 Aurora 的董事,外界猜測 Allen&Company 為領投方。