美國印第安納州的普渡大學(xué)西拉法葉分校的研究工作者,利用深度學(xué)習(xí)算法為虛擬增強(qiáng)現(xiàn)實(shí)技術(shù)提供了新型系統(tǒng)——“深度手控”(DeepHand)。
未來的人機(jī)交互系統(tǒng),概念上應(yīng)能夠滿足人類和虛擬環(huán)境間的交流互動。屆時,對計算機(jī)的要求也變得更高,計算機(jī)將需要獲取并計算人類手部復(fù)雜的運(yùn)動狀態(tài)及龐雜關(guān)節(jié)角度,從而理解人類雙手無窮無盡的姿勢所要表達(dá)的含義。
在虛擬增強(qiáng)現(xiàn)實(shí)技術(shù)中,用戶需要佩戴頭盔,才能夠感知虛擬環(huán)境為用戶所帶來的視聽盛宴。然而,增強(qiáng)現(xiàn)實(shí)技術(shù)能為用戶呈現(xiàn)虛實(shí)并存的世界,并且滿足用戶對虛擬場景及真實(shí)世界雙重互動。而虛擬現(xiàn)實(shí)技術(shù)為用戶提供一個純粹的人工環(huán)境,用戶可以完全的沉浸在虛擬現(xiàn)實(shí)世界。
圖片展示了深度手控系統(tǒng)的使用過程。“深度手控”(DeepHand)是由普渡大學(xué)C設(shè)計實(shí)驗(yàn)室的研究者所開發(fā)。該系統(tǒng)能夠應(yīng)用深度學(xué)習(xí)算法理解人類手部靈活的關(guān)節(jié)和大量復(fù)雜的扭動。這將會讓我們向未來人機(jī)交互系統(tǒng)邁出一大步,更加深刻的滿足人類和虛擬環(huán)境間的交流互動。
“如果將虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)二者結(jié)合,這種新系統(tǒng)必須能夠看見并且理解用戶的雙手到底在做什么”,“Donald W. Feddersen機(jī)械工程系”兼C設(shè)計實(shí)驗(yàn)室主管,Karthik Ramani說道。“如果你的雙手不能和虛擬現(xiàn)實(shí)相互溝通,那么你就沒辦法做任何事情。這就是為什么說雙手在虛擬增強(qiáng)現(xiàn)實(shí)技術(shù)中是非常重要的。”
“深度手控”(Deephand)是一種新的系統(tǒng),它應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)算法來模仿人類大腦,同時能夠運(yùn)用“深度學(xué)習(xí)”算法去理解雙手狀態(tài)的多變性和扭轉(zhuǎn)的復(fù)雜度。“我們可以精確定位出手部和指頭的位置,并能實(shí)時估計雙手和指頭的運(yùn)動狀態(tài)。”Ramani 說道。
一篇關(guān)于“深度手控”的研究論文在今年6月26日至7月1日于美國拉斯維加斯舉辦的CVPR 2016上展出。(附上會議傳送門:http://cvpr2016.thecvf.com/)
“深度手控”應(yīng)用深度感知照相機(jī)捕捉使用者的手掌,并且使用特定算法來理解手勢。“這種系統(tǒng)被稱作‘三維空間用戶界面‘,因?yàn)橛脩襞c電腦是在空間中進(jìn)行交流,而不是傳統(tǒng)的觸屏控制和鍵盤操作。”,Ramani說道。“系統(tǒng)可以根據(jù)用戶所需來識別搭建在虛擬平臺上的物體,例如用戶可以開虛擬汽車,或者做一個虛擬的陶藝。這樣的一雙會思考的虛擬雙手,顯然是一個至關(guān)重要的平臺。”
這篇學(xué)術(shù)文章的作者是博士生Ayan Sinha和Chiho Choi 以及Ramani。關(guān)于這篇文章更多細(xì)節(jié)已在C設(shè)計實(shí)驗(yàn)室主頁展出。普渡大學(xué)的C設(shè)計實(shí)驗(yàn)室,是由美國國家自然基金所支持,并且和Facebook及Oculus齊名。同時聯(lián)合贊助CVPR研討會。(普渡大學(xué)C程序設(shè)計實(shí)驗(yàn)室網(wǎng)址傳送門在此。)
根據(jù)一個擁有250萬個手勢和結(jié)構(gòu)的大數(shù)據(jù)庫,研究工作者不斷地“訓(xùn)練”深度手控系統(tǒng)。為了更快的提取有效信息,手指連接處被設(shè)置為特定的“特征向量”。
“我們識別一些手部的關(guān)鍵角度。然后我們觀察這些角度是如何變化的。這些結(jié)構(gòu)其實(shí)就是一些量化的數(shù)值。”Sinha說道。
“這個想法類似于Netflix上的推薦算法,根據(jù)先驗(yàn)知識,比如用戶之前購買過的電影庫,然后針對這類特定客戶的偏好,選擇性地向他們推薦電影。”Ramani說。“深度手控”傾向于選擇‘空間最近鄰’算法,這種算法能夠最佳的被攝像頭捕捉到手部具體位置。盡管訓(xùn)練這個系統(tǒng)要求強(qiáng)大的計算能力,但是一旦這個系統(tǒng)被訓(xùn)練好了,就可以在標(biāo)準(zhǔn)運(yùn)算強(qiáng)度的計算機(jī)上運(yùn)行。”
據(jù)悉,這項研究已經(jīng)被國家自然基金和普渡大學(xué)機(jī)械工程系所支持。
深度手控是一種關(guān)于重建人類手勢使用深度學(xué)習(xí)算法的新理論。深度感知鏡頭使得電腦可以處理不同的人類手勢。使用這些新的深度學(xué)習(xí)算法,電腦識別并重建手型的過程就像我們自身大腦做的那樣。這有著潛力去變化我們和電腦交互的方式同時改變我們身邊的事情。
深度學(xué)習(xí)模型能夠觀察手的不同部位,比如手掌或者指頭,并且可以計算出他們組合在一起是怎么工作的,這和大腦的工作非常類似??紤]到自遮擋和自相似的手掌,甚至一些部分對于傳感器根本不可見,但是算法依舊可以重建這些部位通過深度學(xué)習(xí)算法。
CVPR 2016該文章的論文摘要譯文:
《DeepHand:一種基于補(bǔ)完深度特征矩陣的魯棒手勢估計方法》
摘要:
本文提出一種使用商用傳感器的深度數(shù)據(jù)恢復(fù)3D手勢信息的DeepHand算法。通過有區(qū)別的訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),得到低維的具有深度映射性的手勢特征。這一手勢特征向量包含了手部運(yùn)動中整體的和局部的典型關(guān)節(jié)角度信息。算法通過高效地的識別空間上最近的指節(jié)構(gòu)建出的手勢特征,將特征庫與合成的深度映射信息結(jié)合,并融合前幾幀中的相鄰指節(jié)信息來實(shí)現(xiàn)識別功能。
矩陣補(bǔ)完是通過時間-空間行為特征與已標(biāo)記的手勢參數(shù)值共同估計未知的手勢參數(shù)。算法中手勢特征數(shù)據(jù)庫覆蓋了多種視角下的特征數(shù)據(jù),分層估計手勢參數(shù)從而保證了在遮擋情形下的魯棒性。文中展示了在標(biāo)準(zhǔn)配置的計算機(jī)上統(tǒng)一使用幀率為32的視頻流將DeepHand與最新的方法進(jìn)行對比的結(jié)果。