让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

16
2025
08

张建伟:具身智能数据需求会是自动驾驶和大谈话模子的1000倍

发布日期:2025-08-16 06:31    点击次数:115

专题:2025宇宙机器东说念主大会:AI大模子赋能机器东说念主与具身智能产业新范式换取活动

  “2025宇宙机器东说念主大会”于8月8日至12日在北京经济工夫开发区开幕,“AI大模子赋能机器东说念主与具身智能产业新范式换取活动”当作2025宇宙机器东说念主大会的专题活动于8月8日同期召开。光轮智能惩办决策副总裁张建伟出席并演讲。

  以下为演讲实录:

  大众下昼好,我是来自光轮智能的张建伟,今天和大众共享的主题是《合成数据加快具身智能参加物理宇宙》。今六合午也听了大众的共享,有作念实质,有作念模子的,然而大众提到更多的已经数据方面,诚然也有作念真的数据集聚的。

  咱们作念的相对比拟聚焦,主要在合成数据界限。

  我今天的共享聚焦两个点:

  第一部分,咱们关于合成数据的领路。

  第二部分,先容一下咱们在作念的一些事。

  最初看AI的发展,咱们不雅察到两个趋势:

  一是AI正以多模块的样式往端到端场所发展,包括大谈话模子、自动驾驶,也包括具身VLA界限。所谓端到端,即是用更多的神经收集替代更多模块,比如在自动驾驶界限——我之前也作念智驾这一块——端到端的出现,让咱们看到自动驾驶界限中,之前的感知、展望、筹办多模块架构,正通过举座的端到端收集作念替代。具身智能收受VLA的收集架构,施行上亦然端到端的架构。端到端的出现意味着咱们需要更多高质料数据来擢升AI举座性能。

  二是Transformer收集模子的出现及多数应用,让咱们看到AI正在往“以数据为中心”的场所发展,数据质料的犀利决定了AI的性能犀利。是以在这两个趋势下,咱们不错说今天的AI时间其实是以数据为中心的时间。

  回到今天的话题,咱们合计,具身智能的数据需求会是自动驾驶和大谈话模子的1000倍。最初,前边也有嘉宾提到具身数据比拟颠倒,需求量大,因为今天的具身智能但愿机器东说念主能走进千门万户,应用到不同场景,比如工业场景、居家场景、商超场景。不同场景下,需要具身智能有更好的泛化性,这就需要更多更丰富的数据,是以数据需求量会比自动驾驶和大谈话模子高三个数目级。

  第二,具身数据更强调物理交互。比如大谈话模子可能是文本,VLM模子可能是文本+视觉,自动驾驶可能多了激光雷达和毫米波雷达,而具身智能更多感情与物理宇宙的交互,包括机器东说念主的清楚轨迹、力的响应,前边也有嘉宾提到力学传感器。施行上咱们但愿具身智能能真的感受物理宇宙,是以对数据有更强的物理交互条件。

  第三,由于具身智能有不相似子——机器狗、东说念主形机器东说念主、机械臂,东说念主形机器东说念主又分轮式、双足等不相似子——具身智能所需的数据自身亦然异构的,很难有长入标品化的机器东说念主应用到不同场景,因此数据需求亦然异构的。

  第四,当今具身智能的数据缺口很是大。不像大谈话模子不错从收集上取得海量数据,自动驾驶不错通过数据集聚车或量产车作念数据闭环来取得海量数据;而具身智能研究到数据模态的颠倒性,亟需预磨砺数据、后磨砺数据以及强化学习磨砺数据。

  这是具身智能的数据的“数据金字塔”:底层但愿讹诈海量互联网数据,施行是让模子对物理宇宙有基本领路;最表层但愿通过真的宇宙的数据作念微调,让具身算法落地到具体应用场景。真的数据的上风顾名念念义是真的,但集聚资本高、效力低。不仅要惩办东说念主工遥操问题,还要惩办场景搭建及实质采购或制作问题,因此真的数据的集聚资本很高。

  中间一层是合成数据,它的上风是表面上只有有实足多的GPU算力,就不错提供无尽量的数据。由于合成数据在仿真环境下生成,是以泛化才气更强。因此,合成数据不仅能提供足量数据,也能提供高泛化性数据。但合成数据也有问题,存在仿真与真的宇宙的“DomainGap”。是以若是咱们能通过工夫技巧不休松开合成数据的“DomainGap”,就能赋能具身智能的发展。我合计“Sim2Real”不黑白0即1的问题,而是不错通过工夫技巧不休松开各异的问题。

  第二点领路是,咱们不合计不存在合成数据的“永动机”,AGI的发展需要东说念主类的示范数据。

  这极少不错类比大谈话模子和自动驾驶:大谈话模子如GPT的后磨砺阶段有不少RLHF数据,这些数据的提供者是OpenAI从各行业找来的行家(比如数学博士、物理学博士、医师),他们提供高质料语料库,进一步擢升大模子性能;自动驾驶界限,端到端出现后需要“五星司机”的高质料驾驶数据,以擢升自动驾驶算法的类东说念主化才气。因此咱们从大谈话模子和自动驾驶中得到启发:它们的发展需要“东说念主在环”提供高质料数据。具身智能咱们合计亦然访佛的,包括前边提到的遥操集聚数据,非论是在真的宇宙已经仿真中集聚,施行上皆需要有东说念主在环示范。比如咱们会示范若何教具身智能叠穿着、炒菜或作念具体任务,这些数据其实开始于东说念主的示范。

  举座上咱们合计,具身智能的合成数据需要“东说念主在环”的高质料示范,集中仿真环境的才气,提供更泛化的数据,以此放大东说念主类操作数据的价值。

  接下来先容咱们在作念的事。咱们公司叫光轮智能,是一家以仿真工夫初始,从具身场景切入,提供视觉和物理宇宙“东说念主在环”高质料合成数据的企业,但愿通过合成数据放大东说念主类对物理宇宙的示范价值。公司斥地于2023年2月,是一家初创公司,咱们的愿景是成为具身界限的ScaleAI。

  当今咱们的产物面孔包括:高质料3D金钱:这是仿真中集聚数据的原材料,包括金钱、可泛化场景等。遥操器用链:适配不同硬件,且遥操链路在仿真中买通。强化学习平台:具身智能后磨砺阶段会用到,强化学习需要用GPU算力换取数据,因此需要大规师法真。咱们提供的强化学习磨砺平台,同期咱们我方也会用强化学习来考证场景和金钱。当今咱们干事的客户包括国表里头部具身智能公司、一些主机厂和顶尖高校。

  底下快速展示产物Demo:

  第一个场景是雪柜金钱。仿真中常见“看起来真的”的雪柜,而咱们作念的雪柜在视觉、交互及物理力学响应上皆实足真的。咱们会对其进行物理层面的力学建模,比如左边示例中,雪柜门开启角度不同,响应的力大小不同,这些力的大小是与真的雪柜对标集聚的;右边Demo中雪柜抽屉的阻尼力响应。这些能匡助具身智能集聚力的联总共据信息。

  第二个Demo是农业场景的例子,源于客户的真的需求:需要高质料、可泛化的草莓(赈济大小、脸色、不同锻真金不怕火期的泛化),且场景需用于强化学习磨砺,因此这些草莓能被实操,供机械臂进行强化学习磨砺。咱们不仅在视觉层面作念了优化,也在物理及交互层面作念了研发。

  有了金钱后,下一步是搭建场景,场景与真的宇宙的应用场景联系。比如针对客户需求,咱们会制作厨房、商超、工业、医学(如东说念主体内脏)等场景金钱。

  前边提到仿真不错泛化,咱们不仅能在金钱类型、光照上泛化,也能在布局层面泛化。比如商超场景中,金钱自身及摆放皆可泛化,且这内部的每个金钱皆能寂然进行物理交互。

  有了这么的场景,就不错在仿真环境下进行遥操数据集聚。由于不同机器东说念主和数据需求不同,咱们适配了不同遥操实质,包括基于VR、机械臂、4D鼠标的遥操样式。同期,基于VR的遥操存在一个问题:VR眼镜讳饰会导致机灵手遥操斥地看不屈直指,影响遥操精确度。咱们通过算法优化惩办了这个问题——用多个相机集聚数据,让机灵手的位姿臆测更精确。左边示例中,苹果很难通过遥操执取,而经由算法优化后,遥操员不错应答执起苹果进行数据集聚。

  终末共享一个案例:咱们在仿真中集聚数据,微调英伟达的GR00TN1基础模子,并实地部署到真机的适度。左边是东说念主工在仿真环境下进行遥操数据集聚,以及泛化仿真环境所集聚的合成数据;右边是将用合成数据微调后的GR00TN1部署到宇树的H1上,落地到工场场景的应用。

  此外,咱们作念的器用和金钱也部分孝顺给了开源社区,包括前边提到的场景和搭钮金钱,其中有咱们开源的高质料厨房场景,也包括基于HuggingFace发布的机器东说念主LeRobot,在仿真中集聚数据、微调机械臂并最终完毕真机部署,还包括仿真金钱规范互转的联系插件。

  若是大众对合成数据感风趣,宽饶联系咱们进一步换取调解。谢谢!

  新浪声明:统统会议实录均为现场速记整理,未经演讲者审阅,新浪网登载此文出于传递更多信息之见地,并不料味着赞同其不雅点或阐发其描摹。

海量资讯、精确解读,尽在新浪财经APP

牵扯剪辑:李念念阳



相关资讯
热点资讯


Powered by 北京缘夏商贸有限公司 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2021 365建站器 版权所有