每只手21個自由度,支持16主動自由度,具備高精度操作能力。
在夾持、旋轉(zhuǎn)、精準插拔等精細操作上,能力遠超市面常見的6自由度抓取器。
這就是具身智能創(chuàng)業(yè)公司靈初智能最新推出的自研靈巧手。
要知道,人類的一只手是27個自由度,而特斯拉最新一代Optimus Gen-3靈巧手也只有22個自由度。
21個自由度,意味著機械結(jié)構(gòu)復雜,硬件制造上難度極高,還需要保證穩(wěn)定性和可量產(chǎn)性,造價下探很有難度,“市面上很多團隊,光靈巧手就要幾十萬一只。”
而靈初智能創(chuàng)始人兼CEO王啟斌告訴量子位,靈初的目標,是將一臺機器人整機的價格——
打到17000美元(約122083元)級別,對標特斯拉“Model 3定價策略”。
由于視雙足為炫技,在整機設計上,靈初的人形機器人打造成“輪式+雙手”的形象,長下面這樣:
從Day One開始拋棄夾爪
先來說此次新推出靈巧手背后的故事。
靈初智能的目標是打造通用靈巧操作的機器人系統(tǒng),強調(diào)的是從動作層面解決復雜任務。
在創(chuàng)始團隊看來,“通用”和“復雜”,意味著機器人只配備夾爪來抓取遠遠不夠——
抓取只是一種簡單的單一技能,但現(xiàn)實中的任務,如使用工具、精密裝配、翻頁、掃碼、旋轉(zhuǎn),必須具備更高自由度與靈巧度。
耶魯大學等在2013年的《Grasp Frequency and Usage in Daily Household and Machine Shop(抓取頻率及其在家庭與機械車間的應用)》一文中總結(jié)了家庭和車間環(huán)境下人類手部的高頻抓取動作,共10種。
很多看似簡單的操作,比如轉(zhuǎn)筆、精準插拔、翻書、調(diào)方向,都需要高自由度手部與觸覺反饋才能完成。
考慮到落地,工業(yè)場景中很多手中操作(如轉(zhuǎn)動螺絲刀)和精密操作(如電池抓取與攝像頭校準)場景交給低自由度的靈巧手尚且無法完成,更別提夾爪了。
因此從Day One開始,靈初就決定不做夾爪。
之所以選擇自研,是因為靈初團隊覺得市面上的靈巧手產(chǎn)品都不好用。
而靈初身上頗有做靈巧手的技術(shù)基因。
公司首席科學家楊耀東,北京大學人工智能研究院助理教授、強化學習領(lǐng)域的知名學者。
2022年時,他帶領(lǐng)華人團隊獲得NeurIPS 2022具身靈巧操作冠軍;那時候,楊耀東就開始和團隊在仿真環(huán)境中用強化學習訓練靈巧手完成復雜操作。
彼時團隊中的一名00后陳源培,現(xiàn)在成了靈初的聯(lián)合創(chuàng)始人。
他師從李飛飛和Karen Liu(領(lǐng)導斯坦福機器人中心運動實驗室),曾在全球全球范圍內(nèi)首次實現(xiàn)利用強化學習在真實世界同時控制雙臂、雙手多技能操作。
在機器人領(lǐng)域搞強化學習冷啟動訓練
從上面二人的經(jīng)歷中不難抽取出除「靈巧手」外的另一關(guān)鍵詞:
強化學習。
這個詞對大家來說并不陌生——近幾年,它在語言模型后訓練階段立下豐功偉績。然而陳源培介紹,在機器人抓取任務領(lǐng)域,強化學習還是一個難度較高的小眾領(lǐng)域,有相關(guān)經(jīng)驗的人并不多。
他例舉了做這件事的部分困難之處:兩個挑戰(zhàn) + 一個關(guān)鍵矛盾。
第一,自由度越高,訓練難度越大。
現(xiàn)在經(jīng)常出街的機器狗基本上全身是12個自由度,其訓練尚且不易。
靈初智能想做具身智能人形機器人,現(xiàn)階段光是一只手就21個自由度,對算法訓練的要求不言而喻——能做出來和能用起來,中間還是有巨大的gap。
第二,具身智能在真實世界里需要完成的任務,更多是“開放場景長程復雜任務”,單就“長程”這一點來說,非常容易有誤差累積。
比如完成一個任務需要十個步驟,如果第二步有1cm的偏差,最后的操作結(jié)果就可能差出十萬八千里來。
剩下的那一個關(guān)鍵矛盾在于強化學習模型常專用于一個場景,遷移難,跨任務泛化能力差。