澎湃新聞 2025-08-09 15:48:58
8月9日,宇樹科技創(chuàng)始人、CEO王興興在北京舉行的世界機(jī)器人大會(huì)上,談及當(dāng)前智能機(jī)器人暫時(shí)還沒得到大規(guī)模應(yīng)用的技術(shù)障礙時(shí)表示,最大的挑戰(zhàn)是模型?!艾F(xiàn)在對具身智能和機(jī)器人來說,AI模型完全不夠用,這也是限制當(dāng)前人形機(jī)器人大規(guī)模應(yīng)用最大的卡點(diǎn)。”此外,王興興對目前機(jī)器人公司選擇的常用技術(shù)路線VLA模型架構(gòu)持懷疑態(tài)度。
王興興在2025世界機(jī)器人大會(huì)上的發(fā)言
VLA模型指的是Vision-Language-Action Model(視覺-語言-動(dòng)作模型),可以把它理解為——讓機(jī)器“看得懂、聽得懂,并且能動(dòng)起來”的一種AI模型,強(qiáng)調(diào)像人一樣,從感知環(huán)境到自主決策并采取一定的行動(dòng)。
王興興認(rèn)為,對于VLA模型,目前在真實(shí)世界交互中,數(shù)據(jù)采集的質(zhì)量和數(shù)量都不足,即便在VLA模型基礎(chǔ)上加入Reinforcement Learning(強(qiáng)化學(xué)習(xí)訓(xùn)練),仍不夠用,模型本身還需要進(jìn)一步升級和優(yōu)化。
“目前機(jī)器人大模型類似于處在ChatGPT出來前的一到三年?!蓖跖d興稱。
什么時(shí)候才能達(dá)到機(jī)器人GPT時(shí)刻?
王興興認(rèn)為,如果有一天,我們帶一臺(tái)機(jī)器人到一個(gè)它此前從未去過的環(huán)境,隨便給它一個(gè)指令,譬如“把這瓶水遞給某位觀眾”或“幫忙整理一下這個(gè)房間”,它就能順暢、自主地完成任務(wù)。那時(shí)就接近機(jī)器人的“GPT時(shí)刻”了。
今年5月,谷歌在I/O 開發(fā)者大會(huì)上正式發(fā)布了新的世界模型Veo 3,這是其首款能夠同步生成音效(包括環(huán)境音與對話)的AI視頻生成模型。
王興興認(rèn)為,谷歌這條視頻生成路線技術(shù)的收斂速度和成功概率可能會(huì)比VLA模型更高,但仍然面臨還有很多挑戰(zhàn)。其中一個(gè)主要問題是,視頻生成模型過于關(guān)注畫質(zhì),導(dǎo)致GPU消耗非常大。
另外,王興興指出,目前還面臨的一個(gè)大問題是,如果要進(jìn)一步提升機(jī)器人模仿學(xué)習(xí)的能力,必須解決Scaling law,而這一點(diǎn)目前行業(yè)做得并不好。“最簡單的例子是,當(dāng)我訓(xùn)練機(jī)器人執(zhí)行一個(gè)新動(dòng)作,比如學(xué)一支新舞或完成一項(xiàng)新任務(wù)時(shí),往往需要從零開始訓(xùn)練,這非常低效。理想情況下,新的訓(xùn)練應(yīng)該基于已有訓(xùn)練成果,讓訓(xùn)練速度越來越快,學(xué)習(xí)新技能的效果越來越好?!?/p>
王興興指出,這是一個(gè)非常值得深入研究的方向,Scaling law在語言模型上的成功已經(jīng)得到驗(yàn)證,但在機(jī)器的運(yùn)動(dòng)控制上,大家做的還只是剛剛開始,他建議可以關(guān)注這方面的研究。
王興興表示,在未來兩到五年,除了更低成本、更高壽命的硬件之外,機(jī)器人的技術(shù)核心仍將是端到端的具身智能AI模型。
責(zé)編:周順
一審:周順
二審:楊丹
三審:劉文韜
來源:澎湃新聞
我要問