深度算法為VR/AR提供新型系統(tǒng) 普渡大學(xué)開發(fā)AR新技術(shù)DeepHand
2017-01-04 09:08:05 來源:VR網(wǎng) 熱度:
美國印第安納州的普渡大學(xué)西拉法葉分校的研究工作者,利用深度學(xué)習(xí)算法為虛擬增強(qiáng)現(xiàn)實(shí)技術(shù)提供了新型系統(tǒng)——“深度手控”(DeepHand)。
在虛擬增強(qiáng)現(xiàn)實(shí)技術(shù)中,用戶需要佩戴頭盔,才能夠感知虛擬環(huán)境為用戶所帶來的視聽盛宴。然而,增強(qiáng)現(xiàn)實(shí)技術(shù)能為用戶呈現(xiàn)虛實(shí)并存的世界,并且滿足用戶對(duì)虛擬場(chǎng)景及真實(shí)世界雙重互動(dòng)。而虛擬現(xiàn)實(shí)技術(shù)為用戶提供一個(gè)純粹的人工環(huán)境,用戶可以完全的沉浸在虛擬現(xiàn)實(shí)世界。
未來的人機(jī)交互系統(tǒng),概念上應(yīng)能夠滿足人類和虛擬環(huán)境間的交流互動(dòng)。屆時(shí),對(duì)計(jì)算機(jī)的要求也變得更高,計(jì)算機(jī)將需要獲取并計(jì)算人類手部復(fù)雜的運(yùn)動(dòng)狀態(tài)及龐雜關(guān)節(jié)角度,從而理解人類雙手無窮無盡的姿勢(shì)所要表達(dá)的含義。

在虛擬增強(qiáng)現(xiàn)實(shí)技術(shù)中,用戶需要佩戴頭盔,才能夠感知虛擬環(huán)境為用戶所帶來的視聽盛宴。然而,增強(qiáng)現(xiàn)實(shí)技術(shù)能為用戶呈現(xiàn)虛實(shí)并存的世界,并且滿足用戶對(duì)虛擬場(chǎng)景及真實(shí)世界雙重互動(dòng)。而虛擬現(xiàn)實(shí)技術(shù)為用戶提供一個(gè)純粹的人工環(huán)境,用戶可以完全的沉浸在虛擬現(xiàn)實(shí)世界。
圖片展示了深度手控系統(tǒng)的使用過程。“深度手控”(DeepHand)是由普渡大學(xué)C設(shè)計(jì)實(shí)驗(yàn)室的研究者所開發(fā)。該系統(tǒng)能夠應(yīng)用深度學(xué)習(xí)算法理解人類手部靈活的關(guān)節(jié)和大量復(fù)雜的扭動(dòng)。這將會(huì)讓我們向未來人機(jī)交互系統(tǒng)邁出一大步,更加深刻的滿足人類和虛擬環(huán)境間的交流互動(dòng)。
“如果將虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)二者結(jié)合,這種新系統(tǒng)必須能夠看見并且理解用戶的雙手到底在做什么”,“Donald W. Feddersen機(jī)械工程系”兼C設(shè)計(jì)實(shí)驗(yàn)室主管,Karthik Ramani說道。“如果你的雙手不能和虛擬現(xiàn)實(shí)相互溝通,那么你就沒辦法做任何事情。這就是為什么說雙手在虛擬增強(qiáng)現(xiàn)實(shí)技術(shù)中是非常重要的。”
“深度手控”(Deephand)是一種新的系統(tǒng),它應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)算法來模仿人類大腦,同時(shí)能夠運(yùn)用“深度學(xué)習(xí)”算法去理解雙手狀態(tài)的多變性和扭轉(zhuǎn)的復(fù)雜度。“我們可以精確定位出手部和指頭的位置,并能實(shí)時(shí)估計(jì)雙手和指頭的運(yùn)動(dòng)狀態(tài)。”Ramani 說道。
一篇關(guān)于“深度手控”的研究論文在今年6月26日至7月1日于美國拉斯維加斯舉辦的CVPR 2016上展出。(附上會(huì)議傳送門:http://cvpr2016.thecvf.com/)
“深度手控”應(yīng)用深度感知照相機(jī)捕捉使用者的手掌,并且使用特定算法來理解手勢(shì)。“這種系統(tǒng)被稱作‘三維空間用戶界面‘,因?yàn)橛脩襞c電腦是在空間中進(jìn)行交流,而不是傳統(tǒng)的觸屏控制和鍵盤操作。”,Ramani說道。“系統(tǒng)可以根據(jù)用戶所需來識(shí)別搭建在虛擬平臺(tái)上的物體,例如用戶可以開虛擬汽車,或者做一個(gè)虛擬的陶藝。這樣的一雙會(huì)思考的虛擬雙手,顯然是一個(gè)至關(guān)重要的平臺(tái)。”
這篇學(xué)術(shù)文章的作者是博士生Ayan Sinha和Chiho Choi 以及Ramani。關(guān)于這篇文章更多細(xì)節(jié)已在C設(shè)計(jì)實(shí)驗(yàn)室主頁展出。普渡大學(xué)的C設(shè)計(jì)實(shí)驗(yàn)室,是由美國國家自然基金所支持,并且和Facebook及Oculus齊名。同時(shí)聯(lián)合贊助CVPR研討會(huì)。(普渡大學(xué)C程序設(shè)計(jì)實(shí)驗(yàn)室網(wǎng)址傳送門在此。)
根據(jù)一個(gè)擁有250萬個(gè)手勢(shì)和結(jié)構(gòu)的大數(shù)據(jù)庫,研究工作者不斷地“訓(xùn)練”深度手控系統(tǒng)。為了更快的提取有效信息,手指連接處被設(shè)置為特定的“特征向量”。
“我們識(shí)別一些手部的關(guān)鍵角度。然后我們觀察這些角度是如何變化的。這些結(jié)構(gòu)其實(shí)就是一些量化的數(shù)值。”Sinha說道。
“這個(gè)想法類似于Netflix上的推薦算法,根據(jù)先驗(yàn)知識(shí),比如用戶之前購買過的電影庫,然后針對(duì)這類特定客戶的偏好,選擇性地向他們推薦電影。”Ramani說。“深度手控”傾向于選擇‘空間最近鄰’算法,這種算法能夠最佳的被攝像頭捕捉到手部具體位置。盡管訓(xùn)練這個(gè)系統(tǒng)要求強(qiáng)大的計(jì)算能力,但是一旦這個(gè)系統(tǒng)被訓(xùn)練好了,就可以在標(biāo)準(zhǔn)運(yùn)算強(qiáng)度的計(jì)算機(jī)上運(yùn)行。”
據(jù)悉,這項(xiàng)研究已經(jīng)被國家自然基金和普渡大學(xué)機(jī)械工程系所支持。
深度手控是一種關(guān)于重建人類手勢(shì)使用深度學(xué)習(xí)算法的新理論。深度感知鏡頭使得電腦可以處理不同的人類手勢(shì)。使用這些新的深度學(xué)習(xí)算法,電腦識(shí)別并重建手型的過程就像我們自身大腦做的那樣。這有著潛力去變化我們和電腦交互的方式同時(shí)改變我們身邊的事情。
深度學(xué)習(xí)模型能夠觀察手的不同部位,比如手掌或者指頭,并且可以計(jì)算出他們組合在一起是怎么工作的,這和大腦的工作非常類似。考慮到自遮擋和自相似的手掌,甚至一些部分對(duì)于傳感器根本不可見,但是算法依舊可以重建這些部位通過深度學(xué)習(xí)算法。
CVPR 2016該文章的論文摘要譯文:
《DeepHand:一種基于補(bǔ)完深度特征矩陣的魯棒手勢(shì)估計(jì)方法》
摘要:
本文提出一種使用商用傳感器的深度數(shù)據(jù)恢復(fù)3D手勢(shì)信息的DeepHand算法。通過有區(qū)別的訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),得到低維的具有深度映射性的手勢(shì)特征。這一手勢(shì)特征向量包含了手部運(yùn)動(dòng)中整體的和局部的典型關(guān)節(jié)角度信息。算法通過高效地的識(shí)別空間上最近的指節(jié)構(gòu)建出的手勢(shì)特征,將特征庫與合成的深度映射信息結(jié)合,并融合前幾幀中的相鄰指節(jié)信息來實(shí)現(xiàn)識(shí)別功能。
矩陣補(bǔ)完是通過時(shí)間-空間行為特征與已標(biāo)記的手勢(shì)參數(shù)值共同估計(jì)未知的手勢(shì)參數(shù)。算法中手勢(shì)特征數(shù)據(jù)庫覆蓋了多種視角下的特征數(shù)據(jù),分層估計(jì)手勢(shì)參數(shù)從而保證了在遮擋情形下的魯棒性。文中展示了在標(biāo)準(zhǔn)配置的計(jì)算機(jī)上統(tǒng)一使用幀率為32的視頻流將DeepHand與最新的方法進(jìn)行對(duì)比的結(jié)果。
責(zé)任編輯:wangminqiu