北京市具身智能战略布局方向:数据、模型、场景、标准和安全闭环

本页先讨论北京市在具身智能方向可提前布局的战略方向,再由可执行具体工作页拆解为科委侧具体工作。重点是延续上一轮人工智能“模型、芯片、算力”等布局形成的战略主动,把北京已有科研、平台、场景、企业和政策工具组织成下一代具身智能基础设施。

总体方向

具身智能不是单个机器人产品赛道,而是人工智能从数字空间进入物理世界后的基础设施竞争。北京更适合把工作重心放在“脑、数据、真实场景、标准、安全和转化闭环”上,而不是简单与制造强市拼硬件供应链密度。

  • 数据:形成高质量真实世界机器人数据来源,尤其是任务、轨迹、失败、人工介入和运维数据。
  • 模型:围绕 VLA、世界模型、控制策略、安全模型和评测模型,组织开放协作的基座能力。
  • 场景:把实景实训从展示活动升级为可训练、可测试、可复盘、可扩围的真实世界训练场。
  • 标准:在技术路线尚未收敛时,先建立任务、数据、接口、评测和安全边界的公共语言。
  • 安全与转化闭环:把物理安全、监管沙盒、概念验证、中试、首购首用和后评估纳入同一条产业推进链条。

这一方向与北京已公开推进的实景实训、场景培育、概念验证和高校成果转化基础能够衔接 [BJ-001][BJ-002][BJ-003][BJ-004]。关键增量在于把这些基础串成“真实数据沉淀 - 基座能力训练 - 场景验证 - 产品迭代 - 规模部署”的闭环,而不是分别作为独立项目推进。

从上一轮 AI 布局到具身智能布局

北京前几年围绕人工智能发展形成了模型、芯片、算力、新型研发机构和产业主体等布局,智源研究院、北京通用人工智能研究院等平台已经成为北京人工智能基础能力的重要组成部分 [BJ-005][BJ-006]。具身智能的布局可以在此基础上进一步前移,把“数字智能能力”转化为“物理世界行动能力”。

上一轮人工智能布局 具身智能时代对应的新布局 对北京的含义
模型、开源生态和基础研究平台 具身智能基座模型、VLA、世界模型、控制策略和安全模型 依托智源、通研院、启元国家实验室、高校院所和企业,共建开放协作的模型能力,而不是只押注单个企业模型。
芯片、算力和人工智能基础设施 仿真训练、机器人数据处理、模型训练和边端部署能力 将既有算力基础转向具身数据、视频世界模型、机器人策略训练和场景评测。
新型研发机构和高校成果转化 概念验证、中试、样机制造、场景试训和首购首用 把实验室成果推进到可验证的任务和场景,降低高校院所成果与企业需求之间的转换成本。
示范应用和城市级场景开放 真实世界训练场、数据回流和后评估机制 场景不只服务展示,更要沉淀任务定义、数据资产、安全规则和扩围判断。

国际前沿信号

国际前沿已经从“单台机器人完成某个演示动作”转向“跨机器人数据、通用策略、世界模型、真实场景和安全评测”的体系竞争。下面这些信号对北京判断布局重点具有直接参考价值。

  • Google DeepMind Gemini Robotics:前沿模型开始把多模态大模型扩展为 Vision-Language-Action 模型,强调泛化、交互、灵巧操作、跨本体适配和安全评测;这说明“机器人之脑”已经进入大模型体系竞争 [FR-001]
  • Open X-Embodiment:国际研究界正在用多机构、多机器人、多任务数据集推动跨本体策略学习,项目汇集 22 种机器人本体、527 类技能、超过 16 万项任务,并形成 100 万条以上真实机器人轨迹 [FR-002]
  • Physical Intelligence π0:通用机器人策略的核心瓶颈被明确为“没有互联网级机器人数据”。π0 采用多机器人数据、开源数据和互联网级视觉语言预训练,说明高质量机器人交互数据会成为稀缺战略资源 [FR-003]
  • NVIDIA GR00T N1:人形机器人基础模型使用真实机器人轨迹、人类视频和合成数据的混合训练,并在多种本体上评估,反映“真实数据 + 合成数据 + 仿真评测”的组合路线正在成形 [FR-004]
  • NVIDIA Cosmos 3:世界模型正在把文本、图像、视频、音频和动作统一到面向 Physical AI 的模型体系中,并用于物理推理、生成、机器人策略、前向动力学和逆向动力学 [FR-005]
  • AI 风险与评测体系:NIST AI RMF 和美国 AI Action Plan 都把评测、可信风险管理、科学数据集、下一代制造等作为公共部门需要组织的基础能力,具身智能进入公共空间后,这类治理能力会更加重要 [FR-006][FR-007]

方向一:数据金字塔

方向判断:北京可把具身智能数据作为下一轮产业布局的战略资源来组织。越靠近真实场景、真实任务、真实失败和真实运维的数据,越难由单个企业独立获得,也越适合由政府通过场景、平台和规则来组织。

  • 基础层:公开视频、仿真数据、合成数据、任务文本、人类示范视频,可用于语义理解、物理常识和初始策略训练。
  • 实验层:高校院所、新型研发机构、企业实验室和遥操作平台形成的标准化机器人轨迹、传感器、控制和任务数据。
  • 场景层:实景实训、公共场景试点和企业真实部署形成的任务执行、失败复盘、人工接管、运维成本、扩围判断和安全事件数据。
  • 治理层:数据授权、隐私保护、用途边界、质量评分、共享规则、权益安排和监管接口。

北京已有实景实训和场景开放政策基础,后续可把场景项目的交付物从“完成试点”提升为“形成可复用数据资产和评测结果” [BJ-001][BJ-002]。这样形成的数据金字塔,可直接支撑基座模型训练、企业技术迭代、测试评测和政策后评估。

方向二:具身智能基座模型与世界模型

方向判断:北京可组织“开放协作的具身智能基座能力”,而不是建设单一政府模型或替代企业研发。重点是把 VLA、世界模型、控制策略、安全模型、评测模型和跨本体适配能力纳入同一套协作框架。

  • 模型层:围绕视觉语言行动模型、机器人策略模型、世界模型、仿真生成模型和安全评测模型,形成基础能力清单。
  • 机构层:启元国家实验室、智源研究院、通用人工智能研究院、清华、北大、北航、中科院相关团队和北京重点企业,可按能力而不是按行政归属进入协作网络。
  • 应用层:模型能力要落到工业、物流、医疗后勤、园区巡检、特种作业和公共服务等可验证任务,而不是停留在论文和演示。

国际上,Gemini Robotics、GR00T N1 和 Cosmos 3 都说明具身智能的前沿正在向“通用模型 + 世界理解 + 动作生成 + 安全评测”靠拢 [FR-001][FR-004][FR-005]。北京的优势在于人工智能基础研究机构和高校资源密度,可把这些资源重新组织到物理世界智能这一新问题上。

方向三:跨本体标准与开放接口

方向判断:具身智能短期内不会快速收敛到单一本体。机械臂、移动底盘、四足、人形、特种机器人和软体设备会长期并存。北京可先布局跨本体数据、任务、接口和评测标准,降低企业、场景和科研平台之间的转换成本。

  • 任务标准:统一描述任务目标、环境条件、成功标准、失败类型、人工接管和安全约束。
  • 数据标准:规范轨迹、传感器、视频、力控、语音指令、状态日志和人工标注格式,便于跨平台使用。
  • 接口标准:建立本体适配层,让不同机器人可接入共同的任务库、数据平台、仿真环境和评测体系。
  • 评测标准:在真实场景和模拟环境中同时评估成功率、稳定性、安全性、人工接管率、运维成本和可扩围性。

Open X-Embodiment 和 π0 的共同启示是:跨本体能力不是自然出现的,需要共同数据格式、任务集合和多机器人训练混合 [FR-002][FR-003]。北京可在前竞争阶段先把公共语言建起来,为后续企业差异化竞争和场景扩围留出接口。

方向四:真实世界训练场

方向判断:展示场景解决“看见机器人”,训练场解决“机器人能否稳定工作”。北京已有场景培育和实景实训基础,可进一步形成一批真实世界训练场,把公共场景从短期示范变成长期训练、评测和迭代基础设施。

  • 训练场候选:高端制造、柔性装配、仓储物流、医院后勤、养老辅助低风险任务、地铁机场车站巡检、市政设施巡检、应急特种、科普教育、经开区连续运营场景和模拟家庭环境。
  • 进入条件:每个训练场要有明确任务边界、作业条件、数据授权、责任分工、退出机制和安全红线。
  • 交付物:场景项目应沉淀任务书、数据记录、失败复盘、人工接管记录、运维成本、用户反馈和扩围判断。
  • 组织方式:场景用户、整机企业、模型算法团队、关键部件企业、科研机构和监管部门组成任务联合体,围绕同一批任务迭代。

北京 2026 年实景实训专项已经提出“实景实训 - 数据沉淀 - 产品迭代 - 规模部署”的闭环方向,并强调场景用户、整机和算法、供应链、科研机构共同组成联合体 [BJ-001]。方向建议是在这一基础上,把训练场作为市级战略基础设施而不是单次项目来管理。

方向五:概念验证到首购首用闭环

方向判断:北京具备高校院所、新型研发机构、概念验证平台、产业园区、国资基金和公共场景资源,但这些要素需要被组织成连续通道。具身智能的成果转化不只看论文和样机,更要看是否能通过概念验证、中试验证、真实场景试训和首购首用形成产品能力。

  • 前端发现:从启元、通研院、智源、清华、北大、北航、中科院等平台扫描可转化成果和模型能力。
  • 中段验证:通过概念验证平台、中试平台、企业联合实验室和真实场景任务,判断技术成熟度和工程化难点。
  • 后端采用:对适合公共部门或市属国企使用的任务,探索首购首用、示范采购、保险补偿和风险共担机制。
  • 反馈闭环:把失败原因、成本结构、用户反馈和监管问题回流到科研团队、企业和政策工具箱。

北京已经有概念验证平台建设指引和高校成果转化政策基础 [BJ-003][BJ-004]。增量不是另起炉灶,而是把这些工具与具身智能真实任务、数据标准和安全评测接起来。

方向六:安全评测与监管沙盒

方向判断:具身智能一旦进入公共空间、医疗养老、交通枢纽、应急特种和市政运维,就不再只是算法效果问题,还涉及物理安全、数据合规、责任认定、人员协作和公共秩序。北京可提前布局分级安全评测和监管沙盒,争取在全国具身智能治理中形成标准影响力。

  • 分级评测:按实验室、封闭园区、半开放公共空间、敏感行业和大规模部署分级设置测试要求。
  • 安全指标:评估碰撞、接触力、误动作、人工接管、紧急停止、数据采集、隐私保护、网络安全和异常处置。
  • 监管沙盒:对医院后勤、养老辅助、交通枢纽巡检等场景,先在明确边界内试运行,再根据数据和事件复盘调整准入条件。
  • 标准影响:把北京训练场、测试平台和场景数据形成的评测方法沉淀为地方标准、团体标准或全国标准建议。

Gemini Robotics 已把低层控制安全、语义安全和 ASIMOV 安全评测数据作为模型发布的重要组成部分;NIST AI RMF 则提供了风险管理、评测和可信 AI 的公共框架 [FR-001][FR-006]。北京在真实城市环境中提前建立安全评测体系,可避免后续场景扩围时被动补规则。

与可执行具体工作的关系

“方向建议”先给出市级战略抓手,“可执行具体工作”再拆解为科委侧可启动、可协调、需确认资源的具体工作。二者不是同一层级:前者服务方向研判,后者服务日常组织和执行。

方向建议 主要承接的可执行具体工作 关系说明
方向一:数据金字塔 工作一工作二工作四 企业库、场景需求池和数据测试机制共同构成数据资产入口。
方向二:基座模型与世界模型 工作三工作四工作七 成果扫描、测试验证和全球雷达为模型能力布局提供项目、场景和前沿输入。
方向三:跨本体标准与开放接口 工作四工作八 测试验证和非重复性审查可转化为标准、接口和评测规则。
方向四:真实世界训练场 工作二工作四工作六 场景需求、测试验证和闭门对接共同把场景转成可训练任务。
方向五:概念验证到首购首用闭环 工作三工作五工作六 科研成果、资本尽调和技术场景资本对接共同支撑转化链条。
方向六:安全评测与监管沙盒 工作四工作七工作八 测试验证、全球政策雷达和既有政策缺口审查共同支撑监管前置布局。

本页参考资料

  1. [BJ-001] 2026 人形机器人与具身智能实景实训征集 北京市经济和信息化局,2026-06-12。用于说明北京已有实景实训、数据沉淀、产品迭代和规模部署闭环基础。
  2. [BJ-002] 北京市加快推动场景培育和开放应用工作方案 北京市发改委、市科委中关村管委会、市经信局、市国资委,2026-05-11。用于说明北京已有跨部门场景开放框架。
  3. [BJ-003] 北京市概念验证平台建设工作指引 北京市科学技术委员会、中关村科技园区管理委员会,2026-04-14。用于说明概念验证、项目库和平台动态评估基础。
  4. [BJ-004] 促进首都高校科技成果转化若干措施 北京市教育委员会,2026-04-03。用于说明高校成果转化、概念验证资金、技术转移和国有投资机构容错机制。
  5. [BJ-005] 北京通用人工智能研究院“关于我们” 用于说明北京通研院的新型研发机构定位,以及机器人学、多智能体、大任务平台、物理和社会真实场景训练测试系统等方向。
  6. [BJ-006] 北京智源人工智能研究院官网 用于说明北京人工智能基础研究、开源生态和产业连接机构入口。
  7. [FR-001] Google DeepMind: Gemini Robotics brings AI into the physical world Google DeepMind,2025-03-12。用于说明 VLA、具身推理、跨本体适配和机器人安全评测的国际前沿方向。
  8. [FR-002] Open X-Embodiment: Robotic Learning Datasets and RT-X Models Open X-Embodiment Collaboration。用于说明跨本体机器人数据集、标准化数据和通用策略学习。
  9. [FR-003] Physical Intelligence: π0, Our First Generalist Policy Physical Intelligence,2024-10-31。用于说明通用机器人策略、跨本体训练混合和高质量机器人交互数据瓶颈。
  10. [FR-004] GR00T N1: An Open Foundation Model for Generalist Humanoid Robots NVIDIA 等,arXiv,2025-03。用于说明人形机器人基础模型、VLA 双系统架构、真实轨迹/人类视频/合成数据混合训练和多本体评测。
  11. [FR-005] NVIDIA Cosmos 3: Omnimodal World Models for Physical AI NVIDIA Research,2026。用于说明世界模型把文本、图像、视频、音频和动作统一到 Physical AI 模型体系。
  12. [FR-006] NIST AI Risk Management Framework 美国国家标准与技术研究院。用于说明可信 AI、风险管理、评测和公共框架。
  13. [FR-007] AI.gov: AI Action Plan 美国政府 AI Action Plan 入口。用于说明公共部门围绕科学数据集、评测生态、下一代制造和 AI 基础设施进行组织的政策方向。