News center
News center
過去幾千年,大多數(shù)人只能參與歷史,記錄是少數(shù)人的權(quán)力。而隨著技術(shù)的提升,每個(gè)人不僅在參與歷史,也在記錄著歷史。
.webp)
《窗外的風(fēng)景》 喬瑟夫·尼舍弗朗·尼埃普斯 1826
這是1826年,法國(guó)的發(fā)明家尼爾普斯,在他的工作室拍下的《窗外的風(fēng)景》,這是人類歷史上第一張永久性流傳下來的照片。所謂永久性,就是它記錄在了一張相紙上,這是第一張照片。
從200年后的視角來看,這個(gè)圖片缺少了太多的信息——
這個(gè)圖片很不清楚,我們不知道它拍了什么;
圖片沒有顏色,只有黑與白;
圖片缺乏動(dòng)態(tài),因?yàn)樗且粋€(gè)靜態(tài)的東西。
在這之后的100年,發(fā)明家們不斷地努力去追趕我們?nèi)祟惖难劬Γ兄澜绲木S度。
.webp)
朱力
光鑒科技創(chuàng)始人兼CEO
下載造就APP,觀看完整演講
1888年,愛迪生發(fā)明了電影機(jī)。原理很簡(jiǎn)單,就是把一系列的膠片快速地轉(zhuǎn)起來,我們就可以看到一個(gè)動(dòng)態(tài)的畫面,這樣我們可以記錄時(shí)間。
1894年,彩色的膠片出現(xiàn),我們終于可以把世界的顏色記錄下來。
1922年我們有了第一部3D的電影,叫做《The Power of Love》,這個(gè)時(shí)間點(diǎn)比大多數(shù)人想象的要早很多。
其原理與現(xiàn)在去電影院看的3D電影有點(diǎn)不一樣,當(dāng)時(shí)是用兩個(gè)攝影機(jī),一個(gè)是拍紅色,一個(gè)是拍綠色,大家看的時(shí)候有一副眼鏡,分別是紅綠看不同的畫面,這樣畫面的疊加就有了立體的效果。
當(dāng)時(shí)為了達(dá)到3D效果,犧牲的是畫面的色彩豐富程度。
.webp)
視覺技術(shù)的發(fā)展
這是第一個(gè)100年,我們追趕著人類所感知到的世界所有的維度。而在過去20年,絕大多數(shù)人經(jīng)歷了從膠片到數(shù)碼時(shí)代的變革,這是一個(gè)顛覆性的變化。
膠片時(shí)代,我們拍照的時(shí)候需要在意膠卷還有多少?gòu)垺_洗的時(shí)間是多久、相冊(cè)的厚度是多少,因?yàn)槊繌堈掌颊紦?jù)空間。
在數(shù)碼時(shí)代,我們拍照的時(shí)候,可以立刻看到自己拍的圖像,在瞬間就可以復(fù)制,分享給其他人,而且成本幾乎可以忽略不計(jì)。
這奠定了移動(dòng)互聯(lián)網(wǎng)社交網(wǎng)絡(luò)的基礎(chǔ),我們可以無(wú)限制地去創(chuàng)造和分享看到的信息,只需要關(guān)注自己想記錄下的畫面,然后把它分享出去,剩下的由數(shù)碼和技術(shù)來解決。
.webp)
視覺技術(shù)的進(jìn)一步升級(jí),讓每個(gè)人、每個(gè)消費(fèi)者的手機(jī)上,口袋里都有一個(gè)相機(jī),給社會(huì)帶來了非常本質(zhì)的變化。
僅僅在十幾年前,在我上大學(xué)的時(shí)候,當(dāng)時(shí)媒體的定義是少數(shù)的機(jī)構(gòu),它可以是電視臺(tái),可以是報(bào)紙,可以是雜志,但不是我們每一個(gè)人。
現(xiàn)在當(dāng)我們把手機(jī),把攝像頭連接上互聯(lián)網(wǎng)以后,每一個(gè)人都可以成為事件,或者環(huán)境的記錄者和分享者。我們的所見所聞可以立刻發(fā)到網(wǎng)上,所有人都可以看到。甚至有一些大V在做直播的時(shí)候,可以一瞬間,同時(shí)與幾百萬(wàn)、上千萬(wàn)的人互動(dòng),這是視覺技術(shù)升級(jí)帶來的力量,它甚至改變了歷史的發(fā)展和記錄的形式。
在過去幾千年甚至一兩萬(wàn)年人類歷史的演進(jìn)過程中,大眾是歷史的參與者,只有少數(shù)人才有記錄歷史的權(quán)利。而在今天,此時(shí)此刻,我們每一個(gè)人不僅在參與歷史,而且可以記錄歷史。
過去,我們是用大量數(shù)據(jù)解決小問題,而利用3D視覺,可以用很小的數(shù)據(jù)量解決更大的問題。
過去我們拍的圖片、視頻,最終的“受眾”是人,需要人自己處理。但是在過去的十年,AI技術(shù)快速發(fā)展,大量數(shù)據(jù)的“受眾”已經(jīng)不再是人,是機(jī)器,是算法。
機(jī)器已經(jīng)開始替代人去做很多重復(fù)性的勞動(dòng),比如海底撈等餐廳,送餐機(jī)器人在餐廳里走來走去,或者在酒店、機(jī)場(chǎng),已經(jīng)有機(jī)器人給我們提供服務(wù),而每個(gè)機(jī)器人每個(gè)月都可以為使用者節(jié)省幾千元的勞動(dòng)力的成本。
.webp)
交通監(jiān)控
還有交通監(jiān)控,現(xiàn)在24小時(shí)交通監(jiān)控的背后是算法在不斷地在跑,一旦有人違章,路口的屏幕就會(huì)顯示某車牌號(hào),出現(xiàn)了超速或者其他違規(guī)情況。這些技術(shù)代替了大量的生產(chǎn)力,幫我們創(chuàng)造了更多新的價(jià)值。
那么,這與視覺技術(shù)有何關(guān)系呢?
過去的十年,機(jī)器視覺主要基于2D圖像。它只有平面,但世界是三維的,這就意味著我們需要用低維度的畫面描述更高維度的信息,所以現(xiàn)在是用大量的數(shù)據(jù)解決更小的問題。
比如,桌上有一個(gè)杯子,如果要用2D圖像去描述它,我們需要在不同的距離,不同的角度,拍很多圖片,才能組合在一起,再通過一系列算法進(jìn)行重建。
在學(xué)術(shù)圈用的比較多的數(shù)據(jù)庫(kù)是ImageNet,里面有1000多萬(wàn)張圖片,但只有一萬(wàn)多個(gè),接近兩萬(wàn)個(gè)類別。我們訓(xùn)練一個(gè)基礎(chǔ)識(shí)別算法,需要上千張的圖片,這僅僅是滿足學(xué)術(shù)的要求。
對(duì)于實(shí)際應(yīng)用的產(chǎn)品,比如大量使用的監(jiān)控、人臉識(shí)別等,我們需要幾百萬(wàn)、幾千萬(wàn),甚至上億張圖片才能建立起一個(gè)真正好用的模型。這意味著,想要用AI和視覺做好結(jié)合,我們需要大量的數(shù)據(jù)。而數(shù)據(jù)的采集,數(shù)據(jù)的標(biāo)注都是非常大的成本。
但3D圖像可以非常簡(jiǎn)單的通過幾張圖就能描繪清楚一個(gè)物體,通過三個(gè)視角就能非常清楚的去表征一個(gè)物體的空間信息,我們就可以用一個(gè)非常小的數(shù)據(jù)來解決更大的問題。
與20年前相比,當(dāng)下的3D相機(jī)成本從過去的幾萬(wàn)、幾十萬(wàn),下降到了幾十塊錢,為什么?主要得益于三方面的技術(shù)突破。
.webp)
第一是激光技術(shù)。
過去的3D相機(jī)主要是基于雙目或多目,比如幾個(gè)攝像頭同時(shí)去拍攝,有一個(gè)立體的視角把3D的環(huán)境重建出來。
現(xiàn)在,更好、更穩(wěn)定的3D技術(shù)用的是激光,我們可以發(fā)射一個(gè)有圖案分布的激光,然后再拍攝,通過立體分布,或者通過光脈沖來回的時(shí)間,可以得到我們想要的空間立體的信息。
但在20年前,激光器非常貴,整個(gè)光學(xué)系統(tǒng)也非常貴。好的鏡頭是一個(gè)非常大,非常重,并且非常昂貴的東西,激光器也是。2017年iPhoneX量產(chǎn)了第一代的3D結(jié)構(gòu)光攝像頭,在這一年中,僅僅這一個(gè)場(chǎng)景,人類制造了超過400億個(gè)激光器。
400億是什么概念?它超過了過去人類歷史上所有的年份生產(chǎn)的激光器的總和。而在這400億個(gè)激光器里面,每個(gè)激光器的價(jià)格才不到一美分。
第二個(gè)技術(shù)突破是光學(xué)和集成電路、半導(dǎo)體技術(shù)的結(jié)合。
通過半導(dǎo)體制程的優(yōu)化,從幾微米到現(xiàn)在7納米、5納米,把大量的電路晶體管集成在了一個(gè)非常小的芯片上。而這個(gè)工藝的演進(jìn)也同時(shí)幫助了光學(xué)發(fā)展,我們可以把很多的光學(xué)功能,諸如透鏡等衍射、光柵的功能集成在一個(gè)很小的器件上。
過去的3D相機(jī)是一個(gè)設(shè)備,現(xiàn)在的3D相機(jī)就是一個(gè)非常小的模組,可以嵌入到手機(jī)里。基于這兩種技術(shù)的快速迭代發(fā)展,才能把相機(jī)變得非常小,放到我們的口袋里,而且變得非常便宜。
第三個(gè)就是AI技術(shù)的發(fā)展。我們有了3D相機(jī),就需要有一個(gè)計(jì)算的能力去理解我們看到的場(chǎng)景。AI過去十年的發(fā)展做了非常好的鋪墊。
當(dāng)我們口袋里有一個(gè)3D相機(jī)以后,我們可以做很多有意思的事情。大家用的iPhone或華為手機(jī),前面都有3D相機(jī),它的核心的作用是理解用戶,幫助設(shè)備感知用戶是誰(shuí)。
.webp)
比如FaceID的解鎖、支付,使用3D技術(shù)可以更安全、更高精度的去識(shí)別這個(gè)用戶是誰(shuí)。
更進(jìn)一步,可以去觀察人的微表情——你的眉毛是不是往上聳了,你的嘴角是不是往上翹了,那是說明你高興了;你的嘴角往下了,說明你不高興了。這些細(xì)節(jié),可以與Animoji等應(yīng)用結(jié)合起來與人做交互,這是前置攝像頭。
而手機(jī)的背后,現(xiàn)在已經(jīng)有ToF的相機(jī)在華為上廣泛使用。iPad,以及未來即將發(fā)布的iPhone上也會(huì)有3D相機(jī),可以用來幫助設(shè)備去和空間做交互。它可以看到五米甚至十米遠(yuǎn),可以通過視覺幫助定位手機(jī)。
比如,將虛擬世界的畫面與真實(shí)世界的畫面融合,就意味著是AR。也可以用來做定位,做SLAM等很多有意思的應(yīng)用。
更進(jìn)一步,幾年以后,當(dāng)我們每個(gè)人手里都有一個(gè)3D相機(jī)的時(shí)候,每個(gè)人都在不斷的拍攝和記錄真實(shí)世界的每一個(gè)角落。這就好像我們玩游戲開地圖一樣,這個(gè)世界本來全都黑暗的,每個(gè)人拍個(gè)照片就進(jìn)入了一個(gè)角落,而把這些角落拼接在一起,我們就將整個(gè)真實(shí)世界數(shù)字化了。
在這之后,我們可以去體驗(yàn)一個(gè)“虛擬的真實(shí)世界”,電影《頭號(hào)玩家》的那些體驗(yàn),其實(shí)在不遠(yuǎn)的將來可能就會(huì)成為現(xiàn)實(shí)。
我們不能把所有的問題都扔到云端,雖然我們有更好的帶寬,更好的算力,但不代表可以濫用這些東西。
3D視覺與2D視覺的本質(zhì)區(qū)別在于什么?
舉一個(gè)例子,現(xiàn)在去銀行里開戶,我們不需要去柜臺(tái),一個(gè)自動(dòng)柜員機(jī)會(huì)幫助你解決所有流程。首先需要解決的就是你到底是不是“這個(gè)人”,2D的場(chǎng)景可能用一張照片,然后用照片對(duì)著攝像頭就很容易攻破這個(gè)系統(tǒng)。
如果要判斷這個(gè)是不是“真人”,2D的解決方案是讓用戶搖頭、點(diǎn)頭、眨眼等等。在進(jìn)行健康碼驗(yàn)證的時(shí)候,屏幕閃爍不同的顏色,有些需要你報(bào)一串?dāng)?shù)字等等。這是一個(gè)非常復(fù)雜的、用戶體驗(yàn)不佳的,并且很長(zhǎng)的過程。它需要幾秒,甚至幾十秒的時(shí)間,把這些的數(shù)據(jù)傳到云端,用一個(gè)很復(fù)雜的模型來去判斷。
.webp)
銀行智慧柜員機(jī)
現(xiàn)在,通過端上的3D相機(jī)可以直接拍到人的立體信息,可以拍到很多立體細(xì)節(jié),這些細(xì)節(jié)可以幫助我們?cè)诙松嫌靡粋€(gè)幾美金的芯片,跑一個(gè)非常輕的算法就能實(shí)現(xiàn)這樣的功能。也就是說,我們可以把很多復(fù)雜的,需要云端處理的問題,搬到了一個(gè)攝像頭里面。
可能有人會(huì)問,加了3D相機(jī),是不是增加了額外的成本?其實(shí)從“云”到“端”上的轉(zhuǎn)變、遷移,解決了兩個(gè)非常關(guān)鍵的問題——
在IoT的時(shí)代,設(shè)備會(huì)越來越多。目前,世界上正在運(yùn)行的IoT設(shè)備有數(shù)十億個(gè),在五到十年之內(nèi)會(huì)增長(zhǎng)到數(shù)百億個(gè),我們預(yù)計(jì)50年以后會(huì)有400億以上的IoT設(shè)備。
當(dāng)這些IoT設(shè)備不斷采集圖像、視頻時(shí),按照現(xiàn)在的架構(gòu),把所有的任務(wù)交給云端,面臨的第一個(gè)問題就是帶寬夠不夠?第二個(gè)問題就是電夠不夠?
由于5G的出現(xiàn)可能帶寬的問題會(huì)得到解決,但是如果不改變架構(gòu),每年僅通訊和云端這部分計(jì)算IoT,就要用掉未來全世界20%的電力,同時(shí)會(huì)產(chǎn)生環(huán)境等額外一系列問題。
所以我們需要把這個(gè)問題簡(jiǎn)化,不能把所有問題都扔到云端。我們有更好的帶寬,更好的算力,但這不代表我們可以濫用這些東西。
我們需要在端上做好感知,用更高密度的數(shù)據(jù)進(jìn)行理解。更重要的問題是——我們可以通過技術(shù)解決功能,可以讓生活變得更便捷。
但是,人能不能接受這種方式?這不一定,我們希望有機(jī)器人一類更便捷的方式服務(wù)我們,但是并不希望有機(jī)器的攝像頭,一天到晚盯著自己,個(gè)人的隱私安全是一件非常重要的事情。
如果這個(gè)問題不解決,必然會(huì)導(dǎo)致人們不用這個(gè)技術(shù),那么它就毫無(wú)價(jià)值。所以我們必須把圖像數(shù)據(jù)封裝在端上,當(dāng)數(shù)據(jù)采集完成后,在端上進(jìn)行算法處理,通過加密再發(fā)出去。
如果黑客攻破這個(gè)數(shù)據(jù)的話,這將是一個(gè)毫無(wú)意義的向量,從物理上不再需要擔(dān)心數(shù)據(jù)安全的問題。這也是技術(shù)服務(wù)于人,服務(wù)于社會(huì)的最根本的前提。
大家有沒有想過,為什么攝像頭是彩色的?
我們講了那么多加密、信息安全技術(shù),現(xiàn)在調(diào)轉(zhuǎn)一下畫風(fēng),講一個(gè)豬的故事。
.webp)
中國(guó)是全世界吃豬肉最多的國(guó)家,一年要吃掉約7億頭豬。豬的最優(yōu)出欄體重是120公斤,超過120公斤,再給它吃飼料,長(zhǎng)肉就比較少了,不劃算。
如果有一個(gè)技術(shù),能夠幫助畜牧行業(yè)非常準(zhǔn)確的控制每只豬都在120公斤出欄,那就可以使每頭豬增加50元的利潤(rùn),7億頭就是350億人民幣的利潤(rùn)。
但我們并不能頻繁的把豬趕到秤上稱一稱,因?yàn)樨i是一個(gè)非常敏感的動(dòng)物,如果強(qiáng)迫它做什么事情,它會(huì)不高興,不高興它就不吃飼料,就會(huì)導(dǎo)致它不長(zhǎng)肉,所以我們需要以非接觸的方式測(cè)量豬的體重。
這時(shí),我們就可以使用3D相機(jī)去測(cè)量豬的三圍,比如腰圍、頸圍、臀圍,以及四肢的維度,然后結(jié)合合作伙伴大數(shù)據(jù)與豬的品種進(jìn)行分析,可以非常準(zhǔn)確的預(yù)測(cè)豬的體重。簡(jiǎn)單的技術(shù)升級(jí),就可以創(chuàng)造非常多的價(jià)值。
.webp)
為什么要和大家分享這個(gè)故事?其實(shí)是想告訴大家,3D視覺與2D視覺有一個(gè)非常大的差異。2D視覺的大量數(shù)據(jù)最初的受眾是人,我們把圖片、視頻拍下來,由人去分析。
因?yàn)槿说膶W(xué)習(xí)速度非常快,只要攝像頭技術(shù)也成熟了,那么,視覺「技術(shù)的成熟」與「應(yīng)用的成熟」幾乎是同時(shí)發(fā)生。
但是3D技術(shù)不一樣,3D技術(shù)對(duì)應(yīng)的是算法和場(chǎng)景。2016年,相關(guān)行業(yè)開始嘗試做刷臉支付,而真正大量普及是在2019年。花了三年時(shí)間才把整個(gè)鏈條打通,讓整個(gè)行業(yè)開始普遍應(yīng)用3D技術(shù)。也就是說,3D相機(jī)的成熟,需要與行業(yè)磨合一段時(shí)間,產(chǎn)生一個(gè)成熟的方案,然后再落地。
這也是為什么現(xiàn)在3D技術(shù)發(fā)展,是一個(gè)一個(gè)行業(yè)在發(fā)生的,從關(guān)鍵任務(wù)慢慢發(fā)展到非關(guān)鍵任務(wù),從更有錢的場(chǎng)景,比如金融、安防、工業(yè)等場(chǎng)景,發(fā)展到更多的民用場(chǎng)景。
隨著場(chǎng)景不斷落地,3D相機(jī)成本不斷降低,技術(shù)不斷成熟,應(yīng)用算法不斷的完善,3D視覺的發(fā)展速度也會(huì)越來越快。最近幾年,每年有5-10個(gè)場(chǎng)景出現(xiàn),可能三年以后,每年有50-100個(gè)場(chǎng)景出現(xiàn),到最后,所有機(jī)器視覺的場(chǎng)景都會(huì)是3D的。
那么,大家有沒有想過,為什么攝像頭是彩色的?
——因?yàn)槭澜缇褪遣噬摹?/p>
當(dāng)我面對(duì)很多合作伙伴,面對(duì)很多投資人的時(shí)候,每次都會(huì)提到同一個(gè)問題——我為什么需要3D?現(xiàn)在2D用得不是很好嗎?為什么我要額外花錢去買3D相機(jī)?
如果我們從一個(gè)更遠(yuǎn)的維度去看,這個(gè)世界本來就是3D的,我們?yōu)槭裁匆嘶氐揭粋€(gè)平面上?
原來,之所以用2D的平面,是因?yàn)槲覀儧]有能力去采集3D數(shù)據(jù),而現(xiàn)在3D技術(shù)已經(jīng)成熟,我們用幾十塊錢就能做一個(gè)很好的3D相機(jī),那么,未來所有的攝像頭自然而然也都會(huì)是3D的。
有了3D以后,我們可以有更直接的交互。開頭提到的第一部3D電影的名字叫《The Power of Love》——愛的力量,如果要感受愛的力量,我希望看到的人是立體的、栩栩如生地站在我的面前。
我們也希望通過3D技術(shù)能夠讓感知變得更智能,在端上、在攝像頭上就實(shí)現(xiàn)分析和理解。這就像人一樣,我們不會(huì)去「思考」自己到底看到了什么,摸到了什么,五官的感知已經(jīng)在我們的潛意識(shí)里都解決了。
而思維是在決策維度才用到的,當(dāng)獲取這些信息以后,如何去思考、分析、決策。
在萬(wàn)物互聯(lián)的IoT時(shí)代,我們需要把更低成本、更高效、更安全的架構(gòu)實(shí)現(xiàn)出來。我們需要在端上實(shí)現(xiàn)感知,在云端實(shí)現(xiàn)分析與判斷。