拆开看这个模型架构挺有意思:把视觉语言理解模块和动作生成模块做成双塔结构,就像给机器人装了两套大脑。左边负责"看懂"指令和场景,右边专注"动手"执行,中间用共享注意力机制实时沟通。特别是那个增量式动作块设计,让机器人学会"微调"动作——比如抓杯子时不是直接算出绝对坐标,而是根据当前手的位置小幅度调整,这样换到不同型号的机械臂上也能无缝切换. 背后的数据集更是硬核:10万条覆盖厨房、洗衣、收纳等70类场景的操作记录,连叠衣服、拧瓶盖这种精细活都有详细教学。腾讯这次还开源了2000小时自采数据,连数据采集用的指套式UMI设备专利(2025020117CN)都大方分享。说白了,机器人要真正走进生活,光靠大模型可不够,得从数据采集、模型训练到硬件适配全链路打通。现在HyVLA-0.5已经给出完整方案,连GitHub代码库和HuggingFace数据集都准备好了,就等开发者们来实操验证。
股票入门学习提示:文章来自网络,不代表本站观点。