国产依人在线,操天天,男人网站在线观看

日本www黄,欧美日韩成人在线观看,欧美专区在线观看,中文字幕+乱码+中文乱,99热少妇,伊人久久成人,久久伊人超碰

王興興：人形機(jī)器人規(guī)模應(yīng)用的最大卡點(diǎn)是AI模型不夠用

澎湃新聞 2025-08-09 15:48:58

8月9日，宇樹科技創(chuàng)始人、CEO王興興在北京舉行的世界機(jī)器人大會(huì)上，談及當(dāng)前智能機(jī)器人暫時(shí)還沒得到大規(guī)模應(yīng)用的技術(shù)障礙時(shí)表示，最大的挑戰(zhàn)是模型?！艾F(xiàn)在對具身智能和機(jī)器人來說，AI模型完全不夠用，這也是限制當(dāng)前人形機(jī)器人大規(guī)模應(yīng)用最大的卡點(diǎn)。”此外，王興興對目前機(jī)器人公司選擇的常用技術(shù)路線VLA模型架構(gòu)持懷疑態(tài)度。

王興興在2025世界機(jī)器人大會(huì)上的發(fā)言

VLA模型指的是Vision-Language-Action Model（視覺－語言－動(dòng)作模型），可以把它理解為——讓機(jī)器“看得懂、聽得懂，并且能動(dòng)起來”的一種AI模型，強(qiáng)調(diào)像人一樣，從感知環(huán)境到自主決策并采取一定的行動(dòng)。

王興興認(rèn)為，對于VLA模型，目前在真實(shí)世界交互中，數(shù)據(jù)采集的質(zhì)量和數(shù)量都不足，即便在VLA模型基礎(chǔ)上加入Reinforcement Learning（強(qiáng)化學(xué)習(xí)訓(xùn)練），仍不夠用，模型本身還需要進(jìn)一步升級和優(yōu)化。

“目前機(jī)器人大模型類似于處在ChatGPT出來前的一到三年?！蓖跖d興稱。

什么時(shí)候才能達(dá)到機(jī)器人GPT時(shí)刻？

王興興認(rèn)為，如果有一天，我們帶一臺(tái)機(jī)器人到一個(gè)它此前從未去過的環(huán)境，隨便給它一個(gè)指令，譬如“把這瓶水遞給某位觀眾”或“幫忙整理一下這個(gè)房間”，它就能順暢、自主地完成任務(wù)。那時(shí)就接近機(jī)器人的“GPT時(shí)刻”了。

今年5月，谷歌在I/O 開發(fā)者大會(huì)上正式發(fā)布了新的世界模型Veo 3，這是其首款能夠同步生成音效（包括環(huán)境音與對話）的AI視頻生成模型。

王興興認(rèn)為，谷歌這條視頻生成路線技術(shù)的收斂速度和成功概率可能會(huì)比VLA模型更高，但仍然面臨還有很多挑戰(zhàn)。其中一個(gè)主要問題是，視頻生成模型過于關(guān)注畫質(zhì)，導(dǎo)致GPU消耗非常大。

另外，王興興指出，目前還面臨的一個(gè)大問題是，如果要進(jìn)一步提升機(jī)器人模仿學(xué)習(xí)的能力，必須解決Scaling law，而這一點(diǎn)目前行業(yè)做得并不好。“最簡單的例子是，當(dāng)我訓(xùn)練機(jī)器人執(zhí)行一個(gè)新動(dòng)作，比如學(xué)一支新舞或完成一項(xiàng)新任務(wù)時(shí)，往往需要從零開始訓(xùn)練，這非常低效。理想情況下，新的訓(xùn)練應(yīng)該基于已有訓(xùn)練成果，讓訓(xùn)練速度越來越快，學(xué)習(xí)新技能的效果越來越好?！?/p>

王興興指出，這是一個(gè)非常值得深入研究的方向，Scaling law在語言模型上的成功已經(jīng)得到驗(yàn)證，但在機(jī)器的運(yùn)動(dòng)控制上，大家做的還只是剛剛開始，他建議可以關(guān)注這方面的研究。

王興興表示，在未來兩到五年，除了更低成本、更高壽命的硬件之外，機(jī)器人的技術(shù)核心仍將是端到端的具身智能AI模型。

責(zé)編：周順

一審：周順

二審：楊丹

三審：劉文韜

來源：澎湃新聞

我要問