机器人动作领域突破!UniVLA模型实现跨模态AI机器人动作统一
mhr18 2025-07-09 15:26 3 浏览 0 评论
还记得《星际穿越》中那台能在无重力、尘暴甚至巨浪中切换形态、随时理解库珀指令的TARS多功能机器人吗?
在银幕里,我们羡慕TARS能听懂人话、看懂环境、马上给出最合适的动作;而在现实世界的实验室里,“让机器人既会看、又会听、还能动”一直是跨模态人工智能的终极梦想。
过去几年,Vision-Language-Action(VLA)模型似乎找到了钥匙,却又被不同机器人的形态和动作标注成本牢牢拽住:换一条机械臂、添一个关节,就得推倒重来。
这篇来自香港大学与OpenDriveLab团队的新作UniVLA给出了科幻般的答案:与其费力教每台机器人说出自己的动作,不如在千万条人类和机器人视频中,先悟出一种任务中心的潜在动作语言。
2025年5月15日,香港大学、OpenDriveLab、AgiBot共同在arXiv发布论文Learning to Act Anywhere with Task-centric Latent Actions,一场关于机器人学习的交响乐就此奏响。
论文提出了UniVLA,一位能够指挥任何机器人乐手演奏统一乐谱的“总指挥”。如果你希望像乐迷一样透彻感受这场演出,不妨随我将技术术语化作音符,让交响故事在你脑海中徐徐展开。
序曲:为什么需要“一张乐谱”?
想象一支由小提琴、萨克斯、手风琴甚至街头架子鼓混搭而成的乐队:每件乐器有不同的音域、指法和记谱法,要让他们同时演奏同一首曲子,传统方法会为每个乐器单写分谱,事先标注每一拍该如何演奏。
机器人世界也面临同样困境:不同机械臂、移动平台乃至人类示范的视频之间,动作符号彼此不兼容,且大规模数据往往缺乏精准标签,于是旧有方法只能在单一机体或小范围领域内反复排练。
UniVLA的野心,是提炼一种跨机体、跨视角、无需动作注释的任务中心潜在动作(task-centric latent actions),就像用一种统一简谱把所有乐器的旋律都写进去,让任何机器人都能看谱即奏。
谱写通用动作乐谱:潜在动作模型如何“听音识谱”?
研究团队先把互联网与实验室收集的海量视频当作过往录音,逐帧对比前后两秒的画面变化,用VQ-VAE把这些变化量化为离散音符。然而,原始录音里既有主旋律,也混入了观众咳嗽、灯光闪烁等噪声。为避免机器把镜头抖动也当作指令执行,论文设计了两段式配器:
第一段配器:让文字指令承担高层语义,把任务无关却视觉突兀的变化(例如路人经过)收进一个任务无关音轨;
第二段配器:在冻结上述音轨后,再单独学习真正影响任务的动作音符,也就是task-centric latent actions,最终形成可覆盖多环境动作的紧凑乐谱。
接着,研究者基于Prismatic-7B视觉语言模型,把图像特征、语言指令与这些音符并列送入Transformer,让模型像指挥一样,听懂视觉与文字后按拍子输出下一段潜在动作。整个预训练仅耗约960个A100 GPU小时,远低于OpenVLA需要的21500个A100 GPU小时。
彩排与首演:UniVLA 的多场舞台测试
在模拟排练厅:LIBERO基准
面对四个难度套件(Spatial、Object、Goal、Long),UniVLA 直接把乐谱拍在指挥台上:Bridge版本在没有额外人类视频的情况下,平均成功率 92.5%,而在纳入多模态OpenX与Ego4D后,完整版本飙至95.2%,把早先最佳的OpenVLA甩开近19个百分点。
在街角小型剧场:Room2Room导航
导航场景好比让乐队边走边奏,环境连续变化、步点细碎。即使每次只给 UniVLA一帧路况图,它的演奏依然把Oracle成功率拉到47.1%,与一次性读入整段历史视频的NaVid不相上下,但比OpenVLA高出29.6%。
在真实音乐节:现实机械臂实验
团队用Piper七自由度机械臂安排了扫台面、叠汉诺塔等四首复杂曲目。UniVLA 在灯光突变、道具干扰、换新物体等场景下平均成功率 68.9%,而单任务Diffusion Policy或OpenVLA分别只有24.4%与20.0%左右。
更巧妙的是,潜在动作把12步序列一次性输出,RTX 4090上推理频率可达10 Hz,告别卡顿伴奏。
幕后花絮:潜在动作的“乐理”与可扩展性
潜在动作究竟像怎样的音符?研究者把来自Bridge-V2、RT-1、人类Ego4D视频等不同乐器标出的同一潜在动作并排,发现不论是机械臂抓取还是人手拿杯子,都获得语义一致的抬-放旋律,显示其跨机体的对齐能力。相比Genie那种把一切视觉变化都当动作的全频录音,UniVLA明确区分任务与无关背景,在 Ego4D数据上把LIBERO总成功率从82.3%提升到88.7%。
随着训练曲库加入OpenX、Ego4D等新乐器,无论在R2R导航还是现实机械臂舞台,UniVLA的表现都节节攀升,好比越大的交响团,和声越饱满。而在仅用10%示范谱例的小样彩排中,它已能把LIBERO-Goal成功率推到86.3%,展现强劲的数据效率。
终章与余音:一位“总指挥”带来的启示
说到底,UniVLA给机器人学习世界带来了一张新的通用简谱。它告诉我们,当指令语言负责描绘情感主题,潜在动作承担节奏骨架,机器就能在多乐器环境中即兴协奏;当录像比对与离散量化过滤掉噪音伴奏,模型便能在网络海量视频里识别真正有价值的动作符号。
未来,这份简谱仍有提升空间:粒度是否可自适应变拍、语言注释若从乐段变成整曲又会怎样影响分工、如何把世界模型接入作曲环节生成完整乐章,都是值得期待的篇章。
如果想了解作者完整的思路和公式,可以阅读原论文;机器人爱好者也可以直接打开代码仓库,给你的机器乐手发一张新乐谱,也许下一次动听的协奏,就来自你的工作室。
论文地址:
https://www.arxiv.org/abs/2505.06111
代码仓库:
https://github.com/OpenDriveLab/UniVLA
相关推荐
- mysql一 基本操作(mysql基础操作命令)
-
先讲数据库--mysql、redis、MongoDB爬虫今天的内容:mysql一基本操作注意事项:1.安装:自己安装,有问题可以问老师、可以自己找办法解决2.上课:先讲知识点再回答问题3....
- 香港DM德馬景泰藍文科集團20250702期《生命的收獲》LIN JING DE
-
香港DM德馬景泰藍文科集團20250702期《生命的收獲》DMSIXSEVEN/LINJINGDE/1973主編供圖:香港DM德馬數字甲骨文集團Hongkong-basedDMDelm...
- 01.Java发展历史(java发展简史)
-
1.Java发展历史Java由SunMicrosystems公司(现为Oracle公司)的JamesGosling及其团队在1991年开发,最初命名为"Oak",后改名为"...
- 月薪最高12000!看看这些宝山岗位有没有你心仪的~
-
招聘目录信息1猎上网络科技(上海)有限公司职位分析师职位分析师助理2上海祥腾金属材料有限公司商务车驾驶员3上海赋拓物联网技术有限公司软件测试工程师4上海集优标五高强度紧固件有限公司...
- 69岁的Java之父终于退休了,他竟然也经历过职场PUA
-
有些程序员不到35岁就要担心被优化,但有的程序员干到了69岁的高龄,才准备退休。就前几天,Java之父詹姆斯·高斯林,自个儿在领英上宣布以后要美美享受退休生活了。这一下子,就炸出了不少...
- ocm认证年薪多少?(ocm认证好考吗)
-
从业数据库方面的工程师待遇都很好,年薪30万都是比较平常的事。OCM认证的价值可以归纳成以下几点:1、可以全面掌握Oracle知识,专业知识完善;2、证书对于公司招投标有巨大作用,甚至可以不上班就拿钱...
- 自学java开发攻略,想做程序员的必备攻略?
-
背景现阶段,随着互联网的快速发展,程序员这个行业越来月吃香,不仅仅是因为科技先进,说出去很牛逼,让别人产生崇拜,主要原因是程序员行业薪资待遇好,相比国内其他行业,程序员的薪资待遇是羡慕了很多人呢!于是...
- SpringBoot WebFlux整合R2DBC实现数据库反应式编程
-
环境:Springboot2.4.12R2DBC简介SpringdataR2DBC是更大的Springdata系列的一部分,它使得实现基于R2DBC的存储库变得容易。R2DBC代表反应式关系数...
- AI编码工具未能代替码农:大模型的局限性揭秘
-
随着ChatGPT和GithubCopilot等AI编码工具的兴起,StackOverflow近日因流量减少宣布裁员近三分之一。这引发了一个争议的问题:ChatGPT这类AI编码工具,真的要颠覆整...
- 大模型无法替代码农!GPT-4解决GitHub编程问题成功率为0
-
编辑:编辑部【新智元导读】ChatGPT之类的AI编码工具来势汹汹,StackOverflow又裁员了!不过,普林斯顿和芝大竟发现,面对真实世界GitHub问题,GPT-4的解决率竟是0%。Stac...
- 机器人动作领域突破!UniVLA模型实现跨模态AI机器人动作统一
-
还记得《星际穿越》中那台能在无重力、尘暴甚至巨浪中切换形态、随时理解库珀指令的TARS多功能机器人吗?在银幕里,我们羡慕TARS能听懂人话、看懂环境、马上给出最合适的动作;而在现实世界的实验室里,“让...
- FEA-Bench:首个仓库级新功能实现基准,让大模型更懂软件开发
-
当前,大语言模型在代码生成领域已展现出惊人的能力,但能否胜任真实软件开发中的“新增功能实现”任务,仍是一个关键未解的问题。对此,微软亚洲研究院与北京大学联合发布了首个专注于仓库级新功能实现的基准测试...
- 基于Java的软件版本信息管理系统-2025计算机毕业设计
-
基于Java的软件版本信息管理系统-2025计算机毕业设计前言随着移动互联网的快速发展,APP已成为人们日常生活中不可或缺的一部分。为了高效地管理这些APP的信息,如版本更新、用户反馈、下载量统计等,...
- 马斯克在干嘛?抱着它现身推特 简介改为“推特老板”
-
马斯克收购推特的交易真是“没完没了”。据彭博社报道,当地时间26日,美国亿万富翁埃隆·马斯克抱着水槽走进了推特公司的旧金山总部,他还将自己在推特账号的公开自我介绍改为“推特老板”(ChiefTw...
- 福布斯公布7月全球十大富豪:马斯克成6月最大“输家”,身家缩水160亿美元
-
7月日,福布斯今日公布了2025年7月全球十大富豪榜,其中第二名迎来新面孔。软件巨头甲骨文(Oracle)联合创始人兼董事长拉里埃里森(LarryEllison)凭借公司股价飙升成功上位。由...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- oracle位图索引 (74)
- oracle批量插入数据 (65)
- oracle事务隔离级别 (59)
- oracle 空为0 (51)
- oracle主从同步 (56)
- oracle 乐观锁 (53)
- redis 命令 (78)
- php redis (88)
- redis 存储 (66)
- redis 锁 (69)
- 启动 redis (66)
- redis 时间 (56)
- redis 删除 (67)
- redis内存 (57)
- redis并发 (52)
- redis 主从 (69)
- redis 订阅 (51)
- redis 登录 (54)
- redis 面试 (58)
- 阿里 redis (59)
- redis 搭建 (53)
- redis的缓存 (55)
- lua redis (58)
- redis 连接池 (61)
- redis 限流 (51)