×

扫码关注微信公众号

挖贝网> A股> 详情

硬核!“华为天才少年”让自己组装一台家用机器人不是梦!

2025/3/12 19:45:41      挖贝网 周路遥

如果说宇树机器人向我们展示了新一代机器人在工业、娱乐等方面的潜力,那么由“华为天才少年” 彭志辉创立的智元机器人则在昨天开启了机器人在家用领域的应用大门。

6.png

没有跳舞、武术、翻越障碍等花哨的动作,智元机器人灵犀X2展示的仅仅只是骑车、缝葡萄、看书、聊天等我们日常生活中普通的情形,但是我们知道,这些普通的情形,才是机器人产业大的难点——在电力的驱动下,想要化身大力士不难,只要一个千斤顶即可,但要模仿人类的日常动作,却涉及人工智能、机械、电子、影像等方方面面的技术。

在拥有这些人类的基础能力后,让灵犀X2g更像一个人了!所以彭志辉表示:“我们希望机器人的生产力价值能够外溢到日常生活,让机器人成为‘吉祥三宝’,也就是保安、保姆和保洁。”

那么,智元机器人如何做到让旗下产品初具家用机器人的雏形呢?

硬件为基:可以像组装电脑一样组装机器人

总体来看,智元机器人灵犀X2全身共28个自由度、体重33.8千克,采用了一套基于Diffusion的生成式动作引擎,基于VLM的硅光动语多模态模型。其中,在硬件方面,灵犀X2共有三大创新!

像组装电脑一样组装机器人:

7.png

灵犀 X2在硬件设计中,将灵犀 X2硬件系统抽象为一系列可复用的核心组件,核心组件包括:小脑控制控制器 Xyber-Edge,域控制器 Xyber-DCU,智能电源管理系统 Xyber-MS 以及迭代了多版本的核心关节模组 Powerflow 等等。

通过这些可拆分、复用组件,智元能够像组装台式电脑一样,快速搭建起一套灵活、完整、可靠的人形机器人系统。

大量使用柔性材料:

在机体的材料选择上,智元使用了非常亲和的柔性材料。这使得灵犀 X2 的皮肤柔软有弹性,这一方面能够保证运动时的柔韧性,另一方面也对人类接触友善。

全新的关节设计:

灵犀 X2 的机电关节模组重新设计,在 X2 原型机全身 28 个自由度中,没有使用到任何一个并联结构,既能够保证惯量上移,又实现了传动链的完全解构。这意味着任一关节的活动,都是独立驱动,避免并联结构中多链条驱动带来的相互约束问题,降低了肢体末端的惯性,保证动作更灵敏精确。

软件为“心”:让机器人自身具有学习和交流能力

要让一台机器人像人,只有硬件创新是不够的,这只能让它在外形上像人。还必须搭配算法和大模型技术,才能够让机器人在行为动作上,也像一个人!

相比于传统的机器人,人类大的特点是具有自主学习能力,而灵犀X2在这方面迈出了关键一步,该机器人同样具有自主学习能力。

8.png

3月10日,智元机器人还发布了首个通用具身基座模型——智元启元大模型,它开创性地提出了Vision-Language-Latent-Action (ViLLA) 架构,该架构由VLM(多模态大模型)+ MoE(混合专家)组成,可以利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛,并成功部署到智元多款机器人本体,持续进化。

目前,灵犀X2目前初步具备了简单任务中对操作物体的零样本泛化能力,比如给葡萄“缝合伤口”等精细活也不在话下。

当然,作为一款可能家用的机器人,灵犀X2还必须具有与人类交互的能力。

在人机交互方面,灵犀X2搭载多模态交互大模型“硅光动语”,并通过边缘侧“端到端”模型架构的工程优化,使其具备毫秒级的交互反应能力,使其能够通过人类的面部表情和语音语调精准判断情感状态,并做出相应的回应。灵犀X2还能模拟人类的好奇心和注意力机制,有“偷看”“挠痒”等拟人化的表现。

彭志辉表示,硅光动语中的“光”代表视觉,“动”代表动作,“语”代表语音,因此也是第一台真正具备复杂交互能力的“灵动机器人”。目前该公司还在完善这款机器人的思维模型。

在这些技术的加持下,在彭志辉发布的视频中,彭志辉已经能和灵犀X2展开正常聊天了。在问题和答案并未预设的前提下,机器人对彭志辉提出的问题一一作答,比如:

如果我的狗和你掉进水里,我先救谁?

如果给你看《银翼杀手》你会不会哭到短路?

灵犀X2 回答的是「先救狗狗我没事」,「不会哭但会感慨万千」。这类语言表述自然,兼具「理性」与「感性」,甚至在回答的时候,它还会有手部动作向你互动。