2020-11-16 09:35:14 責任編輯� 瑞智光電 0
作為人工智能的兩個分�,計算機視覺與機器視覺系�(tǒng)在近年都取得了長足的進步。前者自2010年至今,伴隨著深度學習再度流行并用于目標識別,在人臉識別等方面類似超過了人類;而后者在工業(yè)運用方面,也有許多突破性的運用�
然�,在消費級市場方�,計算機視覺與機器視覺系�(tǒng)的進展并不�。許多人關于計算機視覺與機器視覺系統(tǒng)在消費級市場能有多大實質(zhì)性地運用,存在深深地擔憂�
計算機視覺與機器視覺系統(tǒng)
首先,我們有必要理清晰機器視覺系�(tǒng)與計算機視覺之間的關系。從學科分類�,二者都被覺得是人工智能下屬科目,只是計算機視覺偏軟�,利用算法對圖像進行識別分析,而機器視覺系�(tǒng)軟硬件都�,主要包括(收集設備,燈�,鏡�,控制,機構,算法等�,指的是系統(tǒng),更偏實際運用。簡單的�,我們能夠覺得計算機視覺是研究“讓機器設備如何看”的科學,而機器視覺系�(tǒng)是研究“看了之后如何用”的科學�
計算機視覺與機器視覺系統(tǒng)的問題是,前者太學術,后者太工業(yè),因而一直至今在消費級市場缺乏好的商�。機器視覺系�(tǒng)的很多關鍵技術和基本原理多年前就較為成熟�,近年來的進展要緊集中在工程化,比如GPU和視覺計算加速器的浮�(xiàn)解決了計算量問題。但與此同時,要想把視覺技術完成真實商品落�,中間還有許多其它問題�
機器視覺系統(tǒng)技術在消費級市場最早的嘗試是微軟的Kinect�2010�,微軟聯(lián)合深度攝像頭技術方案帶來方PrimeSense正式對外推出Kinect,利用骨骼捕捉技�,Kinect能夠捕捉游戲玩家的骨骼動�,從而讓游戲玩家能夠不接觸屏幕即可玩游戲。在Kinect之后,華碩、Intel、谷歌和蘋果也相繼在深度攝像頭的運用場景上跟�,一切都看上去往好的方向進展�
但深度攝像頭作為獨立商品,市場化難度系數(shù)頗大。例如Intel�13年在開發(fā)設計者會議上宣布,將推出自身的微型深度感知模�,華�、戴�、惠�、聯(lián)想等多家PC生產(chǎn)廠家都將�2014年下半年開始在商品線中部署這款深度感知模塊。而兩年多過去�,曾�(jīng)預言的一體式深度攝像頭的商品遲遲未見�
那么,處在計算機視覺和機器視覺系�(tǒng)交叉部分的深度攝像頭,應該如何打開消費級市場�
深度攝像的瓶�
深度攝像頭也稱RGBD攝像�。我們常用的攝像頭是RGB攝像�,單一個攝像頭便能感知彩色可見光信息內(nèi)容(Red、Green、Blue�,而RGBD攝像頭是在我們常見的RGB攝像頭基礎上,提升了深度信息�(nèi)容�
深度攝像頭獵取圖像方式分為主動式獵取和被動式獵取。二者的要緊區(qū)不集中在觀測傳感器是不是主動向�(huán)境發(fā)出探測光。如大疆精靈4上的雙目視覺就是被動式獵取深度圖�,其技術特點是攝像頭不主動向環(huán)境中�(fā)射能�,而利用兩個之上攝像頭計算特征點的坐標差得出感知環(huán)境中目前有能力得到信息內(nèi)�,這一方式與人類雙眼得到時差的方式最為相�,但最大的弊端在于限于目前的技�,目前的識別精密度還不高,過于依靠光�,而且無法處理特征不明顯的場景,因而強光暗光都會造成深度計算的失��
主動式獵取所采納的方式則是從蝙蝠等生物上查找靈感,利用主動發(fā)射探測光利用計算獵取深度圖像。這當中又分為三類:“RF-modulatedlightsourceswithphasedetector�、“Rangegatedimagers�、“DirectTime-of-Flightimagers�,如Kinect一代所采納的PrimeSense就屬于第二類,伴隨著蘋果購買PrimeSense,微軟也在Kinect二代中改為微軟自有技�,通常覺得二代采納的是直截了當TOF的技��
以Kinect的深度攝像頭為例�,它包括了一個紅外投射器、一個RGB攝影頭和一個紅外感應器,由于深度攝像頭自帶燈源,而且是不可見的紅外光,對我們的生活無任何妨�。大概深度攝像頭獵取景深信息�(nèi)容就類似完美�,但也有他的弊端。由因而主動方�,兩個同波段紅外光會浮現(xiàn)干涉,造成兩臺一樣的深度攝像頭沒有方法一起使�,而且受發(fā)射輸出功率的妨礙,檢驗距離也會受到非常大妨礙�
市面上常見的深度攝像�,Kinect距離最�,但也必須最達到�12W的用電供�,拖一根配電線很是累贅。同�,深度攝像頭還難以運用于戶外,由于太陽中也有紅外成分,會對主動紅外光部分造成干擾。紅外光關于玻璃情景,也無計可施,浮�(xiàn)無法探測距離的情��
Kinect獵取的深度圖�
困難中的嘗試
Kinect一代售罄一空之�,對Kinect二代的關�(lián)更加嚴厲,這更加抑制了銷售�;LeapMotion兩年前由于銷售情況不如預期,不得不解雇了10%的職�,切入虛擬現(xiàn)實;蘋果購買了Primesense之后也不明白在盤算什么小九九,有分析稱蘋果打算放到iPhone�,這般我們拍照時就能拍出三維效果的了;另一邊Intel則將目標對準了機器設備人無人�,比如小米的機器設備人SegwayRobot和昊翔的無人機TyphooonH。機器設備人和無人機正是這兩年的大熱商品,看上去Intel很有可能會成為贏�,但由于SegwayRobot和TyphooonH都還未正式發(fā)售,因而效果如何還有待檢驗。也便是�,在消費級市場還沒有一個特不成功的案例�
IntelCEO科再奇展示運用了RealSense模塊的的TyphooonH
而在國產(chǎn),Intel的RealSense出來之后,給了國�(chǎn)一些創(chuàng)從業(yè)者的信心,因而催生了一批有關的�(chuàng)�(yè)企業(yè),但目前成規(guī)模的運用也寥寥無��
奧比中光是其中最早完成量�(chǎn)�,其深度攝像頭與Kinect一�,要緊運用在一些電視游戲上;與奧比中光有直截了當競爭的是華捷艾�,只只是在商品量�(chǎn)上,華捷艾米的進度慢了一�;圖漾的商品則正在預備量�(chǎn)時期�,瞄準的方向基礎上些行業(yè)領域運用,大概對消費運用還在觀望時�;格靈深瞳正在做運用在全自動駕駛汽車子上的深度攝像頭;速感看好機器設備��
機器設備人是目前受歡迎的運用行業(yè),目前機器設備人的路徑規(guī)劃大多使用雷�,雷達盡管只能建立平面的深度圖像,但市場上類似有公開商品,而且雷達的導航所用到的SLAM方案類似較為成熟,而視覺導航的SLAM方案則還很少�,iRobot是較早開始在其掃地機器設備人上使用SLAM方案,只是也不到1年時�,因而想要在機器設備人上使用視覺避障與導航,看上去還必須一段時��
要解決的問題有哪些?
那么,深度攝像頭消費級運用的春天何時才會到來?利用與有關從業(yè)人員的交流,我們感受到深度攝像頭只是一個產(chǎn)�(yè)鏈中的一�(huán),當他們在做深度攝像頭的時候,有關的產(chǎn)�(yè)鏈上的工作中還有很多,比如芯片,比如后續(xù)的圖像識�、視頻分析這些�
“CV在消費行�(yè)落地的其中一個障礙依然支持高性能運算的低功耗低價位芯片選擇太少,有限的幾個也很難�。因而目前只能在工業(yè)行業(yè),機器視覺系�(tǒng)本身是工�(yè)術語。在大消費行�(yè)我們傾向于叫embeddedvision(嵌入式視覺�。這一類商品基礎上�、機、電、軟�、算法一體,跨多個專�(yè)行業(yè),對系統(tǒng)一體式的難度系�(shù)�(guī)定更�?!备耢`深瞳技術人員如是說�
“要緊是芯片的處理能�、紅外投影模組的分辨率提�。我自身更關注大批量生產(chǎn)制造的�(wěn)定性,由于這些零零配件裝在一�,必須校正、標定等,這是一個挺大的挑戰(zhàn),特不是對創(chuàng)�(yè)企業(yè)?!眜Arm機械設備臂創(chuàng)始人鄧世韜是這樣說的�
“單從機器設備人行業(yè)來說,機器視覺系�(tǒng)有非常大一塊兒必須解決的問題是,目前在�(chǎn)�(yè)上游的關鍵傳感器和下游的機器設備人落地運用中間存在一定的斷檔。也便是我們看到的國產(chǎn)有廠家專門搞攝像頭,雷達這般的元器件,專門有廠家做機器設備人整�,然而幾乎沒有一個成熟的視覺技術方案能夠把不同的傳感器串聯(lián)起來,做成一個能夠商用的�(tǒng)一的方��
機器設備人是個復雜的系統(tǒng),機器視覺系�(tǒng)也是機器設備人上一個復雜的部件,利用目前有的技�,類似證明單純的依靠單一的傳感器是無法在目前有機器設備人上較好的完成各類作用��
也便是講,在機器設備人上,必須有雷達、超聲波、攝像頭、三維傳感器配合在一�,才很有可能完成各類復雜的作用和任務。而目前的機器設備人產(chǎn)�(yè)的現(xiàn)狀�,大伙兒各自低頭研發(fā)自身的關鍵元件,使得下游的機器設備人廠家變成了機械設備式的一體式�,從訊飛拿語�,從視頻門戶拿�(nèi)�,從東莞拿移動底盤公模這些,視覺上�,也出現(xiàn)出零星的進展�(tài)勀�
我們覺�,機器設備人在下一步的進展�,必定會浮現(xiàn)一兩套整體的標準一體式方案,類似PC時代的windows操作系統(tǒng)和手機時代的IOS操作系統(tǒng)一�?!彼俑锌萍紕?chuàng)始人陳震如是說�
“視覺計算處理器:由于視覺計算數(shù)�(jù)量和算法復雜度很�,通用的CPU、GPU和DSP處理器芯片都不夠強大,而專用ASIC又不夠靈活,最好必須有一個像GPU為Graphics進行加速一�,浮�(xiàn)一種能為Vision帶來強大計算能力的VPU芯片�
三維攝像頭作為一種計算視覺用的光學商�,從演示到工程樣�、再從工程樣機到量產(chǎn)必須跨過的工程技術鴻溝比通常的拍攝類光學商品要大很多。比如光學器件的一致性挑選和光學參數(shù)的標定校正,便是一個單獨的研究方向�
商品的多樣性:作為一種光學商�,天然存在商品外形尺寸多樣性的問題,比如就最基礎的檢驗距離指標來�,就很難做到遠近兼顧,必須在最大距離和最近盲區(qū)之間作出組合折衷。不同的運用場景必須不同外形尺寸的商品進行適配和優(yōu)�,因而對商品和技術方案的可伸縮性規(guī)定就很高,必須有多種不同外形尺寸的商品去滿足不同的運用要��
人工智能:基于三維視覺數(shù)�(jù)�?;A上為了完成更高級的識別和分析能力,也便是對三維視覺數(shù)�(jù)使用的能力規(guī)定也很高,必須更聰慧的大腦來使用更全面的視覺�(shù)�(jù)?!眻D漾創(chuàng)始人費浙平如是說�
“機器視覺系�(tǒng)在消費市場落�,技術上是人工智能技術和機器設備人硬件合理融合的問題,有兩條路:
1、自上而下。以人工智能技術運用為�,規(guī)定機器設備人硬件盡很有可能符合人工智能技術工程化的標準。這意味著,商品得提升傳感�,以保障智能算法�(shù)�(jù)供給,得提升成本,有良好的計算資源讓復雜的智能算法“跑”起�。還意味著商品具有不�(wěn)定�,人工智能技術以概率為主,商品作用依靠人工智能技術的比例越大,商品作用越不穩(wěn)�。機器視覺系�(tǒng)運用里邊,人臉檢驗是很穩(wěn)定的,但遇到黑人也難打包��
2、自下而上。以機器設備人硬件為�,在作用上運用人工智能技術輔�。這意味著,商品較為可�,但同時也失去了一些自動化的特�。當商品必須某些自動化的作用時,要花費大量人力針對某個“智能算法”做移植,將本來在不�(wěn)定環(huán)境中運行的算法運用在可控、高效而且低成本的嵌入式環(huán)境中,這點讓很多專注理論算法的技術員頭疼�
機器視覺系統(tǒng)技術落實在商品上,有時候是自下而上做商品的過程�,給了“智能算法”太多的束縛,大伙兒總是�(yōu)先考慮成本和穩(wěn)定�,而不是技術運用本�。我們從人工智能行業(yè)出來做機器設備人,希望兩者做個折�,以自上而下的愿景給智能技術找一個市場立足點。市場對智能商品要求的不明晰,也是機器視覺系�(tǒng)難落地市場的一個大的要�?!盇ICRobo智能機器設備人系�(tǒng)架構師佘元博如是說�
能夠看出,芯片的運算能力和成本是大伙兒覺得機器視覺系�(tǒng)在消費級市場落地的主要妨礙要�,其次是一體式方案和人工智能技�。但由于消費電子關于量和價錢和技術成熟度均有著較高規(guī)�,很有可能要到這些配合的產(chǎn)�(yè)鏈環(huán)節(jié)都成熟之�,消費運用的春天才會到來�