以“創(chuàng)業(yè)投資開啟AI技術(shù)與應(yīng)用共振周期”為主題的啟明創(chuàng)投·創(chuàng)業(yè)與投資論壇近日在滬舉行。在“具身智能的奇點(diǎn)時(shí)刻”專題對(duì)話環(huán)節(jié),多名業(yè)內(nèi)專家一致認(rèn)為,具身智能已站在奇點(diǎn)到來(lái)的早期窗口。當(dāng)前,具身智能技術(shù)雖未完全收斂,但已處于快速發(fā)展階段。
啟明創(chuàng)投主管合伙人周志峰表示,具身智能機(jī)器人將率先在揀選、搬運(yùn)、組裝等場(chǎng)景實(shí)現(xiàn)規(guī)模化部署,積累大量機(jī)器人第一視角數(shù)據(jù)與帶觸覺(jué)的操作數(shù)據(jù),構(gòu)建“模型—本體—場(chǎng)景數(shù)據(jù)”的閉環(huán)飛輪。這一飛輪將驅(qū)動(dòng)模型能力迭代,最終推動(dòng)通用機(jī)器人邁向大規(guī)模落地。
站在具身智能奇點(diǎn)的“前夜”,原力靈機(jī)聯(lián)合創(chuàng)始人兼首席執(zhí)行官、曠視科技聯(lián)合創(chuàng)始人唐文斌表示,投身具身智能行業(yè)最大的信心,來(lái)自于看到大模型領(lǐng)域鏈?zhǔn)酵评恚–oT)與智能體(Agent)能力的巨大潛力。唐文斌認(rèn)為,機(jī)器人從專用走向通用有兩個(gè)必要條件,一個(gè)是對(duì)物理世界的精確感知能力,一個(gè)是對(duì)復(fù)雜任務(wù)的規(guī)劃和推理能力。
具身智能來(lái)到發(fā)展的關(guān)鍵階段
從進(jìn)廠擰螺絲,到便利店遞可樂(lè),具身智能作為人工智能與機(jī)器人技術(shù)融合的前沿領(lǐng)域,目前已來(lái)到技術(shù)突破與產(chǎn)業(yè)培育的關(guān)鍵階段。
“具身智能技術(shù)過(guò)去兩年的發(fā)展速度,已超越此前多年積累,進(jìn)入‘越跑越快’階段?!彼呛絼?chuàng)始人兼首席執(zhí)行官陳亦倫表示,一方面,業(yè)內(nèi)對(duì)端到端技術(shù)的信息倍增,操作領(lǐng)域?qū)嶒?yàn)室樣機(jī)能力顯著提升;另一方面,多模態(tài)大模型發(fā)展?jié)摿κ?,視覺(jué)、語(yǔ)言等模態(tài)的進(jìn)步尚未觸頂,數(shù)據(jù)驅(qū)動(dòng)能力持續(xù)增強(qiáng)。從硬件成熟度上來(lái)看,高自由度終端(如靈巧手)和接近量產(chǎn)的形態(tài)加速落地。
唐文斌表示,具身智能的發(fā)展動(dòng)力主要來(lái)自大模型在鏈?zhǔn)酵评恚–oT)與智能體(Agent)上的能力達(dá)到一定的臨界值。
“通用機(jī)器人的出現(xiàn),需同時(shí)滿足兩項(xiàng)必要條件:其一,對(duì)物理世界的高精度多模態(tài)感知。這也是我們過(guò)去創(chuàng)業(yè)十多年以來(lái)一直在做的事情,如今無(wú)論是小模型還是大模型,我們的多模感知能力已經(jīng)做到了行業(yè)領(lǐng)先水平,并且還在不斷提升。”唐文斌說(shuō),“其二,復(fù)雜的規(guī)劃與推理能力,我們希望機(jī)器人能夠像人一樣實(shí)現(xiàn)敏捷的決策、結(jié)合多模態(tài)的感知實(shí)現(xiàn)對(duì)復(fù)雜問(wèn)題的推理。兩者結(jié)合方可推動(dòng)機(jī)器人邁向通用化,而當(dāng)前Agent與CoT的進(jìn)展,正使這一技術(shù)朝著可行的方向發(fā)展”。
技術(shù)尚未收斂 增長(zhǎng)空間可觀
盡管發(fā)展速度極快、宏觀方向趨同,但具身智能技術(shù)尚未收斂。業(yè)內(nèi)普遍認(rèn)為,下一階段需通過(guò)量產(chǎn)落地驗(yàn)證技術(shù)路線,加速標(biāo)準(zhǔn)制定與生態(tài)協(xié)作,推動(dòng)分化領(lǐng)域逐步收斂。這一發(fā)展現(xiàn)狀也為創(chuàng)新企業(yè)提供了定義技術(shù)范式的戰(zhàn)略窗口期。
唐文斌認(rèn)為,當(dāng)前具身智能的技術(shù)路線尚未收斂,算法框架、數(shù)據(jù)來(lái)源、硬件形態(tài)與穩(wěn)定性以及場(chǎng)景落地的先后順序仍處于開放探索階段。
“雖然業(yè)內(nèi)正逐步形成‘端到端、純數(shù)據(jù)驅(qū)動(dòng)、采用類VLA(視覺(jué)—語(yǔ)言—?jiǎng)幼鳎┛蚣堋墓沧R(shí),并普遍認(rèn)同多模態(tài)信息(視覺(jué)、觸覺(jué)、力覺(jué)、深度等)需統(tǒng)一納入大模型,但終極模型架構(gòu)尚無(wú)定論?!碧莆谋筇岬?,現(xiàn)有VLA多為單幀模型,缺乏原生記憶機(jī)制,難以完成需要狀態(tài)累積的任務(wù)(如連續(xù)添加調(diào)料)。此外,“大小腦模型”將高頻執(zhí)行與低頻決策人為拆分,雖為當(dāng)下工程實(shí)踐,但并非終極形態(tài);未來(lái)仍需探索單一模型如何以動(dòng)態(tài)、柔性的頻率進(jìn)行實(shí)時(shí)思考與決策。
“整體上看,技術(shù)框架仍面臨大量未解問(wèn)題,而開放的不確定性正是推動(dòng)行業(yè)持續(xù)創(chuàng)新的關(guān)鍵動(dòng)力。”唐文斌說(shuō)。
據(jù)陳亦倫介紹,在具身智能領(lǐng)域,業(yè)界已在宏觀層面形成高度共識(shí),例如,數(shù)據(jù)被視為核心驅(qū)動(dòng)力,模型最終部署形態(tài)大概率采用端到端架構(gòu)等。不過(guò),在具體實(shí)踐中,各個(gè)團(tuán)隊(duì)的路徑差異明顯。“宏觀共識(shí)、微觀多元”成為行業(yè)現(xiàn)狀。
例如,數(shù)據(jù)獲取方面,有人主張大規(guī)模部署真機(jī)采集,有人傾向高比例仿真生成;算法層面,即便認(rèn)同VLA的任務(wù)定義,網(wǎng)絡(luò)架構(gòu)仍存分歧——是否采用單一大網(wǎng)絡(luò)、是否加入隱變量層、強(qiáng)化學(xué)習(xí)的選擇及世界模型必要性等問(wèn)題仍在探索。硬件層面同樣多元,通用機(jī)器人形態(tài)分為雙足與輪式兩大類,雙足方案又存在直驅(qū)關(guān)節(jié)與復(fù)雜傳動(dòng)機(jī)構(gòu)等不同設(shè)計(jì)。
后端場(chǎng)景有先發(fā)優(yōu)勢(shì)
在實(shí)驗(yàn)室場(chǎng)景下,機(jī)器人已具備“十八般武藝”,復(fù)刻了人類諸多技術(shù)和勞動(dòng)。然而,在商業(yè)化應(yīng)用中,機(jī)器人實(shí)際落地或遵循嚴(yán)謹(jǐn)?shù)南群箜樞颉?/p>
唐文斌認(rèn)為,機(jī)器人的規(guī)?;瘧?yīng)用大概率將從工業(yè)、物流等領(lǐng)域的后端場(chǎng)景起步。這類場(chǎng)景因規(guī)模大、勞動(dòng)力密集,能產(chǎn)生更大價(jià)值。之后,具身智能逐步向商用場(chǎng)景拓展,最終走向民用。
“機(jī)器人能否落地的關(guān)鍵在于兩點(diǎn):一是真正解決問(wèn)題(能用、好用),二是經(jīng)濟(jì)模型成立?!碧莆谋笳f(shuō)。
從技術(shù)與市場(chǎng)的結(jié)合角度,唐文斌還提出了三個(gè)關(guān)鍵標(biāo)準(zhǔn):其一,堅(jiān)持技術(shù)發(fā)展的正向梯度,即不過(guò)早將技術(shù)形態(tài)固化于特定垂直場(chǎng)景,避免犧牲泛化性,而是沿著技術(shù)演進(jìn)的正確路徑推進(jìn),保持模型在通用能力上的迭代空間。其二,注重技術(shù)可達(dá)性,選擇容錯(cuò)率較高、對(duì)操作時(shí)間容忍度更強(qiáng)的場(chǎng)景,逐步從90%向95%、100%優(yōu)化。其三,場(chǎng)景需具備規(guī)模與強(qiáng)需求。
陳亦倫則遵循高價(jià)值、有規(guī)模、有難度的“黃金三角”邏輯篩選機(jī)器人應(yīng)用場(chǎng)景。他表示,公司會(huì)選擇用戶非常在意的真實(shí)需求、存在較大市場(chǎng)空間且上一代機(jī)器人技術(shù)難以解決的問(wèn)題,最終實(shí)現(xiàn)通用機(jī)器人的AGI終極目標(biāo)。
7月下旬,上海發(fā)放了新一批智能網(wǎng)聯(lián)汽車示范運(yùn)營(yíng)牌照。8月以來(lái),全無(wú)人駕駛的出租車在上海市區(qū)開展日常運(yùn)營(yíng)。在技術(shù)底座上,無(wú)人駕駛和機(jī)器人共享“感知—決策—執(zhí)行”技術(shù)棧與產(chǎn)業(yè)鏈資源,有望形成“車—機(jī)共生”生態(tài)。未來(lái),兩大領(lǐng)域?qū)膮f(xié)同研發(fā)走向規(guī)?;l(fā)展。
陳亦倫表示,具身智能和自動(dòng)駕駛在任務(wù)場(chǎng)景和底層技術(shù)上同宗同源,模型技術(shù)可以復(fù)用,工程能力可以遷移,自動(dòng)駕駛行業(yè)的經(jīng)驗(yàn)與認(rèn)知也能幫助具身智能領(lǐng)域的探索與落地。
校對(duì):陶謙