#科学颜论进行时#
北京机器人上学记:人类当老师,数据是课本,家务能学吗?
北京。海淀区。一栋普通写字楼里。
十几个年轻人坐在机械臂前。重复着同一个动作。
夹起布料。对齐边角。折叠平整。轻轻放下。
每天上百遍。周而复始。
这不是服装厂车间。
这是千寻智能为机器人开设的“家务第一课”。
across北京。机器人“上学”热潮正席卷而来。
西至石景山。人形机器人数据训练中心内。上百台机器人在“九年一贯制”训练区学习开门、拿取物品。
南至亦庄。北京人形机器人创新中心。整栋楼1:1复刻厨房、客厅、超市、加油站。
甚至还有复刻的茶室和工厂生产线。
机器人在这些沉浸式环境中学习开冰箱、倒茶、补货。
每个动作不仅要准确。还要自然——接近人类习惯。
🤖 机器人的“校园”进化
千寻智能的整层空间已被改造成数据工厂。
没有格子间。没有会议室。
只有一排排机械臂和满墙的操作规范。
大屏幕上实时滚动着采集率、误差曲线与系统稳定性指标。
最早训练叠衣服时。光是从布料识别到路径规划就花了半年。
但现在呢?
学习新动作所需数据从六七百条降至不足百条。
效率提升近七成!
机器人模型的成长就像从三岁变成五岁。
学得更快。
更稳。
而亦庄的采集工厂更具野心。
两层楼被复刻为真实生活场景。
以整理冰箱为例。
任务被拆解为多个子动作:开门、识别、抓取、摆放、关门。
不同品牌冰箱构造不同。
瓶装可乐可能放在冷藏室、抽屉或门板储物格。
机器人必须学遍所有变体。
否则换个冰箱就“不会干活”。
📊 数据:新石油与新货币
2025年。北京亦庄亮出一张“具身智能数据采集地图”。
近百个采集点分布在药房、酒店、物流园区。
整个城区变成机器人的露天课堂。
政府政策强力助推。
数据采集标杆实训场奖励10万元。
高质量数据集最高补贴200万元。
每年发放1亿元“数据券”支持企业购买数据产品。
补贴重点从机器人本体转向数据本身。
企业响应迅速。
星海图科技开源其真机数据集Galaxea Open-World Dataset。
来自50个真实场景。
总时长超500小时。
涵盖234种任务、1600余种物体与58类操作技能。
发布一周后下载量突破8万。
👨🏫 人类老师:幕后英雄与无形消耗
具身智能训练师。
听起来很炫。
实则是体力活。
他们每天录入几十至几百条动作数据。
有时需模拟一整天厨房忙碌——来回走动、反复弯腰、搬物归位。
入职前需通过VR适应性测试:弯腰、搬抬、旋转。
很多人撑不过十分钟。
淘汰率超过50%。
招聘还有隐性门槛。
偏好身高160-170厘米、动作协调、体型标准者。
男性体重不超65公斤。无小肚子。
女性不超55公斤。
为何?
体态不稳定会影响通用模型训练。
薪酬结构分化明显。
一线采集员月薪5000-6000元。
数据审核师年薪约8万。
算法工程师月薪起薪2万元。精通数据合成者可达10万。
另有期权激励。
为减少人员流失。
一些数据中心从采集员中挑选“对数据有直觉”者。
教其真机调参、流程设计。
甚至晋升为项目经理。
⚖️ 真实与合成:数据之路分歧
行业共识很明确:数据是核心。
但路径选择正快速分化。
一类坚持真实世界采集真机数据。
另一类侧重合成数据的效率与成本优势。
北京大学助理教授、银河通用创始人王鹤是合成数据路线的代表人物。
他认为真机采集太慢、太贵。
特斯拉训练机器人完成电池分拣需40人团队遥控数月。
却只能完成一个技能。
银河通用选择“虚实结合”。
用10亿级合成数据端到端训练。
仅用200条真实数据。
机器人一个下午就学会按顺序抓取饮用水。
并能泛化到不同品牌的瓶装饮料。
效率是以月计的量级差异。
北京人形则在实践中采用折中方案:仿真数据占9成,真机数据占1成。
成本和产出更平衡。
京东集团高级副总裁何晓冬指出合成数据与真实数据结合的价值。
他借鉴自动驾驶领域经验:特斯拉从L2量产车入手。依靠长期运营积累的真实驾驶数据持续迭代。
仿真能加快验证。
真实场景数据则影响更远的性能问题。
🔮 未来:人机协同的“双向奔赴”
机器人最终需走出“校园”。
到真实生活中干活。
北京这波“办学热潮”正为此探路。
2025年6月。北京第二实验小学。
天工机器人踱步进入科技教室。
与同学们握手问好。
孩子们惊呼:“哇!‘天工’机器人!”
一场人机百米跑友谊赛在操场展开。
孩子们轻松超越天工。
但他们在老师引导下齐声高喊:“‘天工’加油!”
五年级学生彭梓恩说:
“机器人的爆发力没有我们强。不过耐力可能比我们好。它现在跑不过我。但未来能替消防员叔叔冲进火场!”
人机协同。
本就是优势互补、协作共生的“双向奔赴”。
正如天工与孩子们共同奔跑。
“碳基”和“硅基”正携手迈入更宽广的未来。
本文基于经济观察报、央视网、北京市人民政府门户网站等公开报道综合撰写。