我国科技企业生数科技携手清华大学25日发布具身基座模型Vidar。这一模型能够用更少的数据,使虚拟世界中的“视频指令”变成真实世界的“执行操作”,真正实现机器人的“指哪打哪”。
“仅用20分钟的机器人真机数据,即可快速泛化到机器人,所需数据量约为行业均值的千分之一,显著降低了机器人对数据的需求门槛。”生数科技创始人兼首席科学家朱军介绍,模型创新性地构建了支持机器人双臂协同任务的多视角视频预测框架,在保持高性能的同时,展现出显著的少样本学习优势。
Vidar是全球首个基于通用视频大模型实现视频理解能力向物理决策系统性迁移的多视角具身基座模型。“行业主流的视觉-语言-动作模型高度依赖大量优质数据,并且这些数据往往只适配特定的机器人本体及其采集的特定任务集,然而数据收集费时费力且成本高昂。”朱军说。
而Vidar的核心突破在于其通过解构具身任务的执行范式,充分利用“大量通用视频-中等规模具身视频数据-少量机器人训练特定数据”构成的三级“数据金字塔”,以实现“更少数据、更高效能”。
为使模型更加“见多识广”“见机行事”——实现多类型机器人操作的密切配合、灵活适应更多样的物理环境,研发团队还创新性地研发出一种全新的具身预训练方法,进一步增强对物理世界控制的精准度。
为突破现有具身智能数据被任务“过度捆绑”、规模难以做大的瓶颈,团队创新构建了高精度预测逆动力学模型,实现了低成本、高效率、高精度的机器人动作预测。
“我们希望以多模态大模型推动数字世界与物理世界的深度融合与协同进化。”朱军说,一方面,我们通过打造新一代数字内容创作引擎,使AI成为人类创意的延伸;另一方面,我们通过高效训练具身视频基座模型,实现虚拟与现实的深度互动。
声明:本网转发此文,旨在为读者提供更多资讯信息,所渉内容不构成投资、建议消费。文章内容如有疑问,请与有关方核实,文章观点非本网站观点,仅供读者参考。
消息称台积电在德新厂要求50亿欧元补贴,占总投资
,据彭博社消息,台积电正与德国政府进行激烈的争论,为其在德新建的...
税收大数据显示:中国建设统一大市场呈现“三强”态
中国正在建设高效规范、公平竞争、充分开放的全国统一大市场。国家税...
百度推出集成在手表的AI产品“小表AI”App,
,百度旗下的子公司小度近日推出了一款名为“小表AI”的产品,旨在...
徕卡Q3紧凑型全画幅相机发布:升级6000万像素
感谢IT之家网友雨雪载途、独立摄影师的线索投递!,今晚徕卡发布了...
责任照亮未来丨筑梦亚运,小排球教培项目启动
5月25日,中国太保在青海省共和县第二寄宿制小学,开展“责任照亮...
新房准备租出去怎么装修最省钱装修过程中8个容易省
导读大家好,小号哥来为大家解答以上问题什么颜色头发显白,显白的发...