找回密码
 立即注册
搜索
查看: 10|回复: 0

2024世界人工智能大会上全球首款通用人形机器人青龙惊艳亮相

[复制链接]

1万

主题

0

回帖

5万

积分

管理员

积分
57104
发表于 昨天 21:26 | 显示全部楼层 |阅读模式
“你好,我是青龙人形智能机器人,能帮你做家务。”

“你看桌面上有什么?”

“我看看。桌面上有三个面包、两个水果。”

“你帮我清理一下吧。”

“好的,正在为您整理中,我先把面包和水果分类摆放。”

说话的时候,“青龙”身高1米85、体重80公斤,他看向桌面,依次拿起面包和水果,把它们分类放入筐中,现场展示了行走、对话、做家务等能力。

在2024世界人工智能大会上,全球首款通用人形机器人开源公版机“青龙”令人惊艳地亮相。现场工作人员介绍说,人形机器人能够通过语言信息理解人的意图。人形机器人还能根据现场环境做出综合判断。人形机器人进而执行任务。这个任务看似简单。实际上它体现了“大小脑”的感知能力。它体现了“大小脑”的规划能力。它体现了“大小脑”的决策能力。它体现了“大小脑”的控制能力。它代表了国内人形机器人技术的领先水平。

“青龙”是由国家地方共建人形机器人创新中心打造的,该中心在今年5月,被工业和信息化部和上海市政府共同授牌,之后落户浦东。中心科研团队中硕博士占比约80%,研究团队长期致力于人形机器人领域的技术研究以及软硬件研发。

“青龙”拥有43个自由度,它代表了目前人形机器人行业比较顶尖的硬件设计水平,其不仅在硬件参数上达到了国际领先水平,更在具身智能技术的集成与应用上展现出了特有的优势。“青龙”涵盖人形机器人平台技术、具身智能、数据集以及智能训练场这四大技术板块 ,我们已将其开源 ,期望更多人投身于人形机器人的技术创新之中 。中心首席科学家江磊说道 。

近日,《瞭望》新闻周刊记者走近“青龙”,与科研团队展开对话,探讨如何打造一个“优秀”的人形机器人,以及如何训练这样一个人形机器人。

机械躯体:人形机器人的“骨肉”

平台技术可被简单理解成机械躯体,它是人形机器人的基础,包含行走与驱动系统,包含操纵与作业系统,包含感知与控制系统三大模块 ,中心机器人平台技术负责人梁振杰介绍说。

本刊记者在现场目睹,“青龙”缓缓走向讲台,之后停下向观众挥手示意,它行走速度不快,然而步伐颇为稳健,其躯体结构与人体相仿 。

梁振杰介绍,“青龙”全身集成有43个主动自由度,实现了从头部到手部、臂部、腿部、腰部和踝部的全尺寸设计 。关节模组是躯体结构的核心组成单元,它一共搭载了10种、31个关节,最大关节扭矩达到396Nm,峰值扭矩密度实现了200Nm/kg,能实现高强度动力输出 。

双足的作用是负责行走,双臂的作用是执行作业。梁振杰表示,“青龙”的腿部系统有轻量化、高刚度和低惯量的追求,它搭载了高扭矩密度的轴向电机,通过这种方式保障它在复杂地形中的稳态行走能力。它的上肢配备了7自由度的机械臂,还配备了集成触觉感知的五指灵巧手,这为完成精细操作和复杂任务提供了硬件基础。

在动力管理方面,“青龙”搭载了具备能量回收系统的电源系统。在电源管理方面,“青龙”搭载了具备输出稳压管理的电源系统。这两个系统能支持“青龙”在复杂工况下持续运行3小时至4小时。



“青龙”搭载了控制器,其算力可达每秒400万亿次操作,这是当前非常强大的算力,能支持复杂的AI应用和高级别的自动驾驶功能 ,“青龙”还搭载了丰富的外部接口 ,用以满足人形机器人产品以及常规外部设备的使用要求 。

平台整体进行了集成,采用了“视、听、触、嗅、动”五感融合设计,这使得人形机器人能够感知周围环境 。

梁振杰说,“青龙”平台的核心技术有十多年的技术沉淀,这标志着我们人形机器人平台技术实现了从无到有的突破。

青龙核心研发团队是国内较早开展仿生腿足式机器人研究的团队,有着近十年机器人行业技术积累,构建了仿生机器人核心技术体系,建立了机器人控制、感知、交互等核心技术群,这使得“青龙”处于国内人形机器人技术领先水平 。

具身大脑+小脑模型:人形机器人的智力

“青龙”拥有“朱雀”具身大脑和“玄武”小脑模型。

“朱雀”具身大脑是机器人指挥调度中心,其核心是多模态大模型,它利用多模态大模型的感知能力、任务理解能力、记忆能力以及规划能力,来帮助机器人完成任务,其输入方式为文字和图像信息,支持语音交互,最终会把任务决策信息输出给“玄武”小脑模型。

记者采访得知,在当前发布的版本里,“朱雀”具身大脑一共集成了3个大模型,其中一个是科大讯飞星火大模型,一个是上海人工智能实验室书生·浦语大模型,还有一个是上海人工智能实验室书生·万象多模态大模型。

“朱雀”具身大脑有跨设备的调度框架,书生浦语大模型运行在本地服务器,万象多模态大模型也运行在本地服务器,语言大模型能实现用户意图识别与对话功能,讯飞星火大模型与浦语功能类似,不过运行在云端服务器,多模态大模型有处理图像的能力,当识别到用户任务与当前环境相关时,会启用多模态大模型进行环境感知。

中心具身智能负责人田翀表示,在后续更新的版本里,我们会对参数量较小的语言模型进行微调,将其直接部署在机器人终端,作为大模型的补充。对于简单问题,机器人能够直接做出回复,进而减少与服务器通信的时间,实现更快速准确的交互与技能调度。

“玄武”小脑模型是任务执行模型,它分为两个部分,即轨迹规划模块和运动控制器。首先,轨迹规划模块负责输出期望轨迹,该模块以人类动作为模仿对象,由端到端的机载视觉信息驱动。然后,运动控制器控制人形机器人做出相应的动作。

田翀介绍,小脑模型存在三条主要技术路径,分别是控制理论、模仿学习、强化学习。控制理论往往要对系统开展详细建模。模仿学习借助模仿专家行为来学习任务。强化学习是使人形机器人依靠与环境交互来学习。这三者各有长处与短处。“玄武”小脑模型采用了上述三种技术路径。

不断进化的具身大脑和小脑模型让人形机器人更聪明。

数据:人形机器人的“灵魂”

受访者称,决定人形机器人智能程度的关键因素在于数据 ,数据是人形机器人的灵魂 ,数据越丰富 ,“大小脑”的智能就越高 ,能力也越强 。中心具身智能负责人邢伯阳介绍,“大小脑”的综合训练需要大量数据,这些数据包括多样化垂类场景训练数据,多模态语音数据,人体开源数据,运动捕捉数据,机器人本体数据,环境地形数据等 。

邢伯阳表示,人形机器人自身的数据采集主要有两类。一类是借助全身运动捕捉设备,来捕捉人体全身高精度运动关节角度,凭借这些数据可训练人形机器人完成走、跑、跳、抓、拿、放等多种技能。另一类是针对灵巧的专用作业和精细作业,通过头戴式视觉系统完成毫米级手部动作的采集。



我们首先收集了大量人力数据,以模仿学习为基础打造行为策略和行为标准,然后利用控制理论和强化学习打造运动控制系统,在3个月内完成了小脑模型的算法开发和迭代,通过“解剖”小脑模型,能看出数据对其的塑造作用。田翀表示,我们对人体运动数据加以充分利用,结合模仿学习策略,为机器人运动训练提供了精准的参考轨迹,也提供了运动标准。与此同时,我们把传统的运动控制方法应用于数据收集工具的开发,还将这些思想融入到强化学习训练中。

通过技术融合,提高了机器人运动控制策略的训练效率,缩短了训练周期,还确保了策略在实际应用中的安全性和可靠性,这是“玄武”小脑模型与其他小脑模型相比的一大特点 。田翀说,该模型还在发展初期,能力和功能仍需提升和完善 。

管控平台借助AI同时完成对数据标注、管理以及模型部署的需求,助力实现机器人数据采集、评估清洗、训推一体的全流程闭环。邢伯阳向记者解释,通过仿真环境能对采集数据实现快速测试,可删除失败数据单元,完成对原始数据的清洗,还能对神经网络模型进行训练,进而实现面向机器人端的快速部署。

中心计划在3年时间内完成“白虎”数据集的构建,一方面要建设100多个高精度运动采集设备,另一方面要共享业界其他单位采集的数据,从而实现清洗后的高质量数据总量超过1PB,覆盖100多个场景、2000个任务。若1部高清电影占用的数据空间约为1GB,那么1PB的数据量大约能存储100万部这样的电影。

训练场:人形机器人的学校

在2024世界人工智能大会的国家地方共建人形机器人创新中心展区,记者看到了一个小型的机器人“训练场”,现场工作人员像熟练的“老师傅”一样做着生产线上的抓取动作,4个机器人跟着他同步做出相同动作,人为演示一个动作大约50次,机器人就能学会。

为什么要搭建训练场?中心技术负责人刘宇飞表示,构建智能训练场,模拟产线和工业流水线,收集多模态数据,搭建数据管理平台,这将有效提升人形机器人在不同场景下的作业能力,加速具身智能技术的发展以及应用落地。

在国家地方共建人形机器人创新中心,其位于上海张江,记者看到更多机器人在努力学习人类本领,它们有的在学习在高负载状态下稳定快速地行走,有的在练习拿不同形状和重量的物品,比如饮料、饼干等……

刘宇飞表示,归根结底,训练场是数据生产和数据规模化的场地 ,训练场分为感、存、算、学、用五个部分 ,“感”和“存”主要用于云端数据采集 ,采集的数据包括要操作的数据、音频数据、自然语言、运动捕捉等 ,“算”和“学”指机器人的技能模仿学习和强化学习 ,主要进行单臂、双臂以及全身行为的运动训练 。在工业生产线场景里,人形机器人能实现最新的模拟。在服务等场景里,人形机器人能实现最新的应用。

刘宇飞介绍,训练场数据的生产方法包括三个阶段:

第一步是打造单臂的单技能学习与作业对象环境的泛化能力。

第二步是基于协作臂把这套技术路线迁移到“青龙”的上肢。

“青龙”的上肢单臂有7自由度,还有6自由度的灵巧手,协作臂是单臂6自由度加上夹爪,为让灵巧手有更广作业空间,未加入手腕相机,迁移时,我们对采集数据实时优化,在时间上严格对齐动作轨迹与图像,从而达到和三相机(1头部 + 2手腕)一样的学习效果。

第三步则是生产大规模、低成本的人类作业视频。

训练场不仅关注对“小脑”模型的训练,还涉及“大脑”模型的训练,其中包括环境感知能力的训练,行为控制能力的训练,人机交互能力的训练,云端网联能力的训练。

2024年,我们会在上海打造100多个关于人形机器人的产品,还会打造100多个关于人形机器人的训练场 。到2027年,我们期待能够在多个城市搭建1000多个关于人形机器人的训练场 ,这些训练场面向各类场景 ,以此来服务整个人形机器人生态 。刘宇飞说 。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|【宏智网络】 ( 京ICP备20013102号 )

GMT+8, 2025-5-3 09:58 , Processed in 0.104919 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表