機器視覺之后,機器人的感知補全計(ji)劃(hua)
我們知(zhi)道,人(ren)工智能(neng)(neng)的(de)目標之一就是讓計算機模擬人(ren)類(lei)的(de)視(shi)覺(jue)、聽覺(jue)、觸覺(jue)等(deng)感知(zhi)能(neng)(neng)力,嘗試去(qu)看、聽、讀,理(li)解圖像、文(wen)字、語音等(deng),在此基礎上,再讓人(ren)工智能(neng)(neng)具有思維能(neng)(neng)力、行(xing)動能(neng)(neng)力,最終成為跟人(ren)類(lei)一樣的(de)存(cun)在。
現在,人(ren)工智能機(ji)(ji)器(qi)人(ren)的(de)感知能力(li)已經實(shi)(shi)現了明顯的(de)進(jin)展。圍(wei)繞機(ji)(ji)器(qi)視(shi)覺,機(ji)(ji)器(qi)人(ren)可(ke)以(yi)實(shi)(shi)現一系列像(xiang)(xiang)圖像(xiang)(xiang)識(shi)別(bie)、目(mu)標檢測和文字(zi)識(shi)別(bie)等(deng)功能得到廣泛(fan)應用;圍(wei)繞自然語(yu)言(yan)處理,機(ji)(ji)器(qi)人(ren)可(ke)以(yi)進(jin)行基本的(de)語(yu)音理解、機(ji)(ji)器(qi)翻譯、語(yu)音對(dui)話等(deng);圍(wei)繞機(ji)(ji)器(qi)觸覺,機(ji)(ji)器(qi)人(ren)可(ke)以(yi)實(shi)(shi)現靈活(huo)的(de)物體感知、抓握推舉等(deng)各(ge)種動(dong)作(zuo)。
單一(yi)感知(zhi)或者說感知(zhi)能力無法互通,成為當(dang)前人(ren)(ren)工(gong)智能機器(qi)人(ren)(ren)無法實現類人(ren)(ren)化(hua)突(tu)破的一(yi)大原因。也(ye)就是說,在(zai)單一(yi)感知(zhi)能力和單一(yi)工(gong)作上,機器(qi)人(ren)(ren)的準(zhun)確(que)度(du)、穩(wen)定性(xing)和持久性(xing)上面,可(ke)能遠超(chao)人(ren)(ren)類,但一(yi)旦在(zai)完成多(duo)道(dao)工(gong)序的復雜任務上面,機器(qi)人(ren)(ren)就遠遜于人(ren)(ren)類的表(biao)現。
人工智(zhi)能(neng)機器(qi)人想要實現質(zhi)的發(fa)展,就(jiu)必須在(zai)感(gan)(gan)官能(neng)力上(shang)面(mian)實現多模態的感(gan)(gan)知融(rong)合。現在(zai)除了(le)在(zai)我們熟知的機器(qi)視(shi)(shi)覺(jue)(jue)(jue)(jue)方(fang)面(mian),人工智(zhi)能(neng)機器(qi)人正(zheng)在(zai)機器(qi)觸覺(jue)(jue)(jue)(jue)和(he)聽覺(jue)(jue)(jue)(jue)方(fang)面(mian)實現突破,并且通過(guo)視(shi)(shi)覺(jue)(jue)(jue)(jue)、觸覺(jue)(jue)(jue)(jue)和(he)聽覺(jue)(jue)(jue)(jue)的感(gan)(gan)知融(rong)合,來大幅提升機器(qi)人的感(gan)(gan)知能(neng)力。
對于人(ren)(ren)(ren)工智(zhi)能機(ji)器(qi)(qi)人(ren)(ren)(ren),普通人(ren)(ren)(ren)要(yao)么抱有很(hen)(hen)高的不切實(shi)際的幻想,擔心機(ji)器(qi)(qi)人(ren)(ren)(ren)革(ge)命(ming)會(hui)很(hen)(hen)快到來,要(yao)么對機(ji)器(qi)(qi)人(ren)(ren)(ren)的通用能力(li)保持(chi)懷疑,覺得機(ji)器(qi)(qi)人(ren)(ren)(ren)只能在少(shao)數(shu)場景替(ti)代(dai)人(ren)(ren)(ren)類。
只(zhi)有深入到(dao)人(ren)工智能機器人(ren)的“案發現場”,不吹不黑地看(kan)下機器人感知(zhi)能力的發展狀(zhuang)況,才(cai)能知(zhi)道當(dang)前(qian)機器人的感知(zhi)補全計劃的真正進展。
機器視覺(jue)和機器觸覺(jue)
作為地球上最有智慧的生物的人類(lei),感官獲取信息的83%來(lai)自(zi)視覺(jue)(jue)(jue),11%來(lai)自(zi)聽覺(jue)(jue)(jue)、3.5%來(lai)自(zi)嗅覺(jue)(jue)(jue),而1.5%來(lai)自(zi)觸覺(jue)(jue)(jue),1%來(lai)自(zi)味覺(jue)(jue)(jue)。
在這五(wu)種(zhong)感(gan)官中,如果你(ni)不幸地只能保留(liu)一種(zhong),可(ke)能大(da)部(bu)分都(dou)會保留(liu)視覺。要知(zhi)道(dao)我們大(da)腦(nao)的(de)近(jin)1000億(yi)個(ge)神經元,大多數都在處理視(shi)(shi)覺(jue)(jue)信(xin)息(xi)。而(er)在所(suo)有的(de)感知信(xin)息(xi)中,也只有動態的(de)視(shi)(shi)覺(jue)(jue)信(xin)息(xi)是最為復雜的(de),以至(zhi)于人類得靠(kao)著閉上(shang)眼睛主動隔離才能叫(jiao)“休息(xi)”。
正因為視(shi)覺信息(xi)的重要和復雜,我們(men)在(zai)人工智能(neng)技術的發(fa)展(zhan)(zhan)上,除了自然語言處(chu)理,那(nei)就主要在(zai)發(fa)展(zhan)(zhan)機器視(shi)覺了。
這一次人工智能的浪潮也是因為在(zai)(zai)圖像識別上的突(tu)破進展才重(zhong)新興起(qi)。如今(jin),機器視(shi)覺已經在(zai)(zai)工業、安防、日常消費電(dian)子、交通等各個(ge)領域全面開(kai)花,越來越多(duo)的攝像頭(tou)背后(hou)都具有了AI的圖像識別(bie)能力。
對于(yu)大多數人(ren)工智能機(ji)器(qi)人(ren)而(er)言(yan)(yan),除(chu)了有(you)視(shi)覺(jue)能力,還有(you)就(jiu)是移動(dong)(dong)行走和抓取(qu)(qu)能力,這(zhe)就(jiu)需要(yao)用到觸覺(jue)的(de)(de)幫助。對于(yu)往往只有(you)單(dan)一功(gong)能的(de)(de)自(zi)動(dong)(dong)化(hua)機(ji)器(qi)人(ren),通常只需設定好固定的(de)(de)參數、移動(dong)(dong)軌跡和抓取(qu)(qu)力度(du),即可(ke)不休不眠地完成工作任務。但對于(yu)人(ren)工智能機(ji)器(qi)人(ren)而(er)言(yan)(yan),則要(yao)靈活適應各種不同材質、不同形(xing)狀和軟(ruan)硬度(du)的(de)(de)物體,這(zhe)個(ge)時候(hou)就(jiu)既需要(yao)機(ji)器(qi)視(shi)覺(jue)的(de)(de)識別能力,也(ye)需要(yao)對于(yu)物體的(de)(de)觸覺(jue)判斷。
之前,大部分機(ji)器人的(de)抓(zhua)(zhua)(zhua)握解決方案(an)都是(shi)(shi)單靠機(ji)器人的(de)視覺感知(zhi)。主要(yao)的(de)解決辦法就是(shi)(shi)通過(guo)數(shu)據(ju)庫進(jin)行圖像(xiang)匹(pi)配,將目標物體的(de)狀(zhuang)態和自(zi)身動(dong)作進(jin)行實時監測(ce),最終調(diao)整合適的(de)抓(zhua)(zhua)(zhua)取算法,來完(wan)成物體的(de)抓(zhua)(zhua)(zhua)取,但是(shi)(shi)有關(guan)抓(zhua)(zhua)(zhua)握的(de)接(jie)觸(chu)力度,則是(shi)(shi)機(ji)器視覺無法代替的(de),這樣(yang)機(ji)器還需要(yao)觸(chu)覺上的(de)感知(zhi)數(shu)據(ju)。
就(jiu)如同人類(lei)一樣,我們(men)在嘗試抓取物體(ti)時,會組合(he)運(yun)用各(ge)種感知能力(li),最基礎的(de)(de)就(jiu)是視(shi)覺(jue)和觸(chu)覺(jue)。由于視(shi)覺(jue)會因(yin)為光線、陰影(ying)、視(shi)線遮(zhe)擋等因(yin)素,造成誤(wu)判,我們(men)通常會更有(you)效(xiao)地利用皮膚(fu)的(de)(de)觸(chu)覺(jue),來(lai)獲(huo)得對于物體(ti)完整的(de)(de)感知。
人體(ti)的(de)觸覺感知也是一(yi)個非常復雜的(de)生物(wu)電信號反(fan)(fan)應(ying)的(de)過程,那么要(yao)賦予機(ji)器以(yi)觸覺能(neng)力(li)也需要(yao)經過非常復雜的(de)處(chu)理(li)。模擬人體(ti)的(de)觸覺反(fan)(fan)應(ying),機(ji)器人的(de)觸覺傳感器也必須(xu)能(neng)夠將(jiang)(jiang)物(wu)體(ti)的(de)質地、光滑程度以(yi)及物(wu)體(ti)形態進行(xing)(xing)數字模擬處(chu)理(li),將(jiang)(jiang)壓力(li)和振動信號變成可以(yi)計算(suan)機(ji)處(chu)理(li)的(de)數據(ju)信號,從而進行(xing)(xing)觸覺算(suan)法的(de)訓練(lian)。
機器(qi)(qi)觸(chu)覺(jue)的難點在于對于觸(chu)覺(jue)傳(chuan)(chuan)感(gan)(gan)器(qi)(qi)獲(huo)得的抓(zhua)握等微小振動(dong)(dong)的識(shi)別,要能夠(gou)識(shi)別抓(zhua)握物體發生(sheng)的滑動(dong)(dong)振動(dong)(dong)和(he)物體與其他物體摩(mo)擦發生(sheng)的振動(dong)(dong),還要能夠(gou)區分不同物體的振動(dong)(dong),這些是研究(jiu)者們重點攻克(ke)的難點。實現突破的方法(fa)就是,我(wo)們需要更(geng)好的觸(chu)覺(jue)感(gan)(gan)應器(qi)(qi),必須做到(dao)比現有(you)的壓力(li)傳(chuan)(chuan)感(gan)(gan)器(qi)(qi)更(geng)好的觸(chu)覺(jue)傳(chuan)(chuan)感(gan)(gan)器(qi)(qi),能夠(gou)嵌入到(dao)柔性材料當(dang)中,實現像人類皮(pi)膚(fu)一(yi)樣的人造皮(pi)膚(fu)。
最近新加(jia)坡國立大學的兩名(ming)研究人(ren)員就開發出(chu)一種(zhong)人(ren)造皮膚,搭(da)載在(zai)一個能夠模(mo)擬生物(wu)神經網絡人(ren)造大腦,通過(guo)英特(te)爾Loihi的(de)(de)(de)(de)神經擬(ni)態處理器(qi)(qi)上(shang)運行。在(zai)(zai)這(zhe)(zhe)一(yi)(yi)技術(shu)基礎上(shang),研(yan)究團隊通過(guo)了機械手臂(bei)讀取(qu)(qu)盲文的(de)(de)(de)(de)測試,同時借助視(shi)覺傳感器(qi)(qi)和(he)這(zhe)(zhe)一(yi)(yi)人(ren)造皮膚,機械手臂(bei)的(de)(de)(de)(de)抓(zhua)取(qu)(qu)能力也得到明(ming)顯提高。未來(lai)基于這(zhe)(zhe)種觸(chu)覺能力的(de)(de)(de)(de)機器(qi)(qi)人(ren),可以在(zai)(zai)物品分揀過(guo)程中做到更加(jia)靈活、細致(zhi)和(he)安(an)全,在(zai)(zai)護(hu)理行業上(shang),可以對人(ren)類進(jin)行更好(hao)的(de)(de)(de)(de)看護(hu)和(he)幫(bang)助,在(zai)(zai)外科手術(shu)機器(qi)(qi)人(ren)上(shang),更好(hao)的(de)(de)(de)(de)完成手術(shu)的(de)(de)(de)(de)自動(dong)化。
視覺和觸覺的結(jie)合,已(yi)經可以為(wei)機器人感知(zhi)提(ti)升提(ti)供了可能,那么聽覺能力的融合,會帶來哪些效果呢?
機器(qi)聽覺的補全
這(zhe)(zhe)里的(de)(de)(de)機(ji)器聽(ting)覺,不是特指對于(yu)人類語(yu)音(yin)的(de)(de)(de)識別。這(zhe)(zhe)類語(yu)音(yin)識別已經在各(ge)類消費級的(de)(de)(de)智能音(yin)箱(xiang)等領域得到廣泛應用。這(zhe)(zhe)里的(de)(de)(de)機(ji)器聽(ting)覺是指通(tong)過聲音(yin)傳感(gan)器對于(yu)一(yi)切物體(ti)發(fa)出聲音(yin)的(de)(de)(de)判斷。
(重卡變速箱聽力診斷(duan))
相比較(jiao)機器視覺(jue)對(dui)于(yu)物(wu)體的(de)判斷的(de)簡單直接,機器聽(ting)覺(jue)確(que)實是人(ren)們(men)一直忽略的(de)領域。在我們(men)的(de)日常生(sheng)活場景中,我們(men)其實除了用(yong)視覺(jue)來(lai)判斷物(wu)體的(de)遠近(jin)(jin)、顏(yan)色和大小(xiao)之外(wai),我們(men)通常也(ye)會用(yong)到聽(ting)覺(jue)來(lai)識(shi)別物(wu)體的(de)距離遠近(jin)(jin)、質地,推測事件的(de)發生(sheng)。這(zhe)一點對(dui)于(yu)有視力障礙的(de)人(ren)來(lai)說尤為(wei)重要。
最近,卡(ka)內基·梅隆大(da)學(CMU)的研究(jiu)人員發現,通(tong)過增加聽覺感知,人工智能機器(qi)人的感知能力可以得到顯著的提高。
這一次(ci)CMU機(ji)器(qi)(qi)人(ren)研(yan)(yan)究所首次(ci)對(dui)聲(sheng)音(yin)和(he)機(ji)器(qi)(qi)人(ren)動作(zuo)之間的(de)相互作(zuo)用進(jin)行大規(gui)模(mo)研(yan)(yan)究。研(yan)(yan)究人(ren)員發(fa)現,不(bu)同(tong)物(wu)(wu)體(ti)發(fa)出的(de)聲(sheng)音(yin)可以幫(bang)助機(ji)器(qi)(qi)人(ren)區分(fen)物(wu)(wu)體(ti),比如(ru)金屬螺絲刀和(he)金屬扳手。機(ji)器(qi)(qi)聽覺還可以幫(bang)助機(ji)器(qi)(qi)人(ren)確定哪(na)種類型的(de)動作(zuo)會產生聲(sheng)音(yin),并幫(bang)助它們利(li)用聲(sheng)音(yin)來(lai)預測(ce)新物(wu)(wu)體(ti)的(de)物(wu)(wu)理(li)屬性(xing)。經過(guo)測(ce)試,機(ji)器(qi)(qi)人(ren)通(tong)過(guo)聽覺在對(dui)物(wu)(wu)體(ti)進(jin)行分(fen)類的(de)準確率能(neng)達到76%。
為了實現這一(yi)測試,研究者通過60個常見物體在一個機器(qi)人的(de)托盤上進行(xing)滑動、滾動和撞擊(ji),記錄下15000個交互的(de)視頻和音頻,形成了(le)一個大數(shu)據(ju)集。
此外,研究者還(huan)可以通過(guo)搖(yao)晃容器或者攪拌物(wu)質(zhi)的聲音來預估顆粒狀物(wu)質(zhi)的數量和(he)流量,比(bi)如對(dui)大米和(he)意大利面進行評估。顯然,通過(guo)聲音的對(dui)比(bi),可以預測很多通過(guo)視(shi)覺無(wu)法預測的物(wu)理屬性。
機器聽(ting)覺(jue)無法區分(fen)一(yi)個紅(hong)色方塊(kuai)和一(yi)個綠色方塊(kuai),但(dan)他可以在看不見(jian)的情況下的撞擊(ji)聲,來區分(fen)出(chu)兩個不同物體。而(er)這正(zheng)是機器聽(ting)覺(jue)的有用性所在。最(zui)終對于聲音(yin)識別物體的效果,就連研究者也都非(fei)常驚訝。
在機(ji)器聽覺的(de)應(ying)(ying)用(yong)方(fang)面,研究者首先想到的(de)是在未來機(ji)器人(ren)的(de)裝備(bei)儀器上加一(yi)個(ge)手杖,通過手杖敲(qiao)擊物(wu)體(ti)來識別(bie)(bie)物(wu)體(ti),這倒是一(yi)個(ge)有趣的(de)畫面。但可以想見,在未來智(zhi)能安防、管道線路檢測以及身體(ti)檢測等方(fang)面,機(ji)器聽覺可以發(fa)揮更大的(de)作用(yong)。另外(wai),對于(yu)識別(bie)(bie)最有意義的(de)人(ren)類聲音(yin),比如音(yin)樂、情(qing)感等聲音(yin)內(nei)容上面,這些應(ying)(ying)用(yong)就更加廣泛。
機器(qi)人多模(mo)態感知融(rong)合的應(ying)用(yong)前景
正如感覺器(qi)官對于人(ren)類(lei)的(de)(de)重(zhong)要(yao)(yao)性而言,感知系(xi)統(tong)對于機器(qi)人(ren)的(de)(de)重(zhong)要(yao)(yao)性同(tong)樣(yang)至(zhi)關(guan)重(zhong)要(yao)(yao)。
要知(zhi)道,我們人類(lei)其實是很(hen)少(shao)只用(yong)一(yi)個感(gan)官去(qu)獲(huo)取信息,也很(hen)少(shao)只用(yong)一(yi)個感(gan)官去(qu)指導行動。就好(hao)像在一(yi)場“攀爬-賽跑-游泳(yong)”的(de)(de)(de)三合一比(bi)賽中,我(wo)(wo)們(men)(men)在(zai)單一項(xiang)目(mu)中可能無法(fa)戰勝(sheng)猴(hou)子、豹子和海豚,但是(shi)在(zai)整場比(bi)賽中,人類(lei)就可以同時(shi)完成(cheng)這三個項(xiang)目(mu)。我(wo)(wo)們(men)(men)人類(lei)在(zai)感(gan)(gan)知(zhi)事(shi)物的(de)(de)(de)時(shi)候通常也(ye)是(shi)多感(gan)(gan)官同時(shi)發揮(hui)作用,相互協(xie)調和多次驗證來加深對于外界物體(ti)的(de)(de)(de)感(gan)(gan)知(zhi)認識(shi)。更為(wei)復雜(za)的(de)(de)(de)事(shi),我(wo)(wo)們(men)(men)甚至還要借助記憶、推理等理性認知(zhi)能力來對感(gan)(gan)知(zhi)事(shi)物進行加工,從而得到更為(wei)復雜(za)的(de)(de)(de)認知(zhi)。
相比較(jiao)于(yu)人(ren)(ren)(ren)類的多感(gan)官應(ying)用,機(ji)器(qi)人(ren)(ren)(ren)的單一感(gan)知(zhi)或者簡單組合(he)的感(gan)知(zhi)能力,又因(yin)(yin)為目前機(ji)器(qi)人(ren)(ren)(ren)的感(gan)知(zhi)識別模(mo)式仍然是基于(yu)算(suan)法模(mo)型對于(yu)感(gan)知(zhi)數(shu)據(ju)的分析和數(shu)據(ju)對比,因(yin)(yin)此難以產生更為復雜的推理知(zhi)識,因(yin)(yin)此是機(ji)器(qi)人(ren)(ren)(ren)在認(ren)知(zhi)的復雜度(du)上稍遜于(yu)人(ren)(ren)(ren)類,但在識別物體的準確(que)度(du)和規模(mo)上就(jiu)會遠超人(ren)(ren)(ren)類。
現(xian)在,多模態感知融合的推進,將使得機器人在認知復雜度上面逐漸(jian)接近(jin)人類(lei)的能力。未來的機器人面對照明和遮擋(dang)、噪(zao)聲和混(hun)響、運動和相似(si)等復雜交互(hu)場景,將會變得更加游刃有(you)余,從而(er)產生(sheng)各(ge)種收益明顯的現(xian)實應用。
多模態感知融合可能應(ying)用到的領域,包括:
· 特殊化的精(jing)密操作領(ling)域。比(bi)如高難度外(wai)(wai)(wai)科手(shou)(shou)術(shu)領(ling)域,外(wai)(wai)(wai)科手(shou)(shou)術(shu)機器人可以(yi)通過對目標的精(jing)確觀察和(he)相關組織的分(fen)離、固定,進行(xing)比(bi)外(wai)(wai)(wai)科醫生更精(jing)準的手(shou)(shou)術(shu)操作。
· 高危或者高難度(du)的機(ji)器(qi)人作業。比(bi)如危險物品(pin)的搬(ban)運(yun)(yun)、拆除,比(bi)如普通人無(wu)法進入的管(guan)線等高難度(du)區域(yu)檢測(ce)檢修(xiu),地下墓穴或海底的物品(pin)的搬(ban)運(yun)(yun)、打撈,通過機(ji)器(qi)聽覺對密封空間的聲音探測(ce)等。
像在(zai)安防、災害救援、應急處理等需要靈活處理的場景,都可以逐(zhu)漸交由(you)多感知系(xi)統的機(ji)器人處理,或者人機(ji)協同遠(yuan)程(cheng)處理。
此外(wai),由于(yu)機器人(ren)感(gan)知融合(he)能力的(de)提高,機器人(ren)對(dui)于(yu)綜(zong)合(he)感(gan)知數據的(de)訓(xun)練,可(ke)以(yi)更(geng)好(hao)地(di)理解人(ren)類本身的(de)復雜性,尤其是可(ke)以(yi)建立更(geng)為復雜的(de)情感(gan)計算(suan)模型,能夠更(geng)好(hao)地(di)理解人(ren)類在表情、聲音(yin)、皮膚溫度(du)、肢體動作(zuo)等方面傳遞出的(de)情感(gan)信號,為更(geng)高級的(de)人(ren)機互動提供新的(de)可(ke)能。
目前來(lai)看,人(ren)工智能機器人(ren)仍(reng)然是一個(ge)復(fu)雜(za)的系統(tong)工程,想要(yao)實(shi)現機器人(ren)的多模態感知融合,還需要(yao)對傳感器性(xing)能、算法(fa)協(xie)同、多模態任(ren)務、環境測(ce)試等多方面進(jin)行綜合研究。
這(zhe)個過程(cheng)必(bi)(bi)定是(shi)非常艱(jian)難的(de)(de),但(dan)取得成(cheng)果之后的(de)(de)前途必(bi)(bi)定是(shi)一片光(guang)明的(de)(de)。在我們(men)期待(dai)人類與機器人和諧生活的(de)(de)未來(lai),我們(men)自然更(geng)期待(dai)這(zhe)些(xie)機器人不再是(shi)一臺(tai)冷冰冰的(de)(de)機器。
020-82313220