物理AI 引爆机器人革命!NVIDIA 开源模型 + 全栈技术落地,全球伙伴亮出新一代智能机器

最后更新:2026-01-08 浏览:1094次

物理AI 引爆机器人革命!NVIDIA 开源模型 + 全栈技术落地,全球伙伴亮出新一代智能机器


  当业界还在热议 AI 技术的边界拓展时,NVIDIA CES 上用一场硬核技术发布会震撼全场:NVIDIA 宣布推出用于物理AI 的全新开源模型、框架和 AI 基础设施,并展示了全球合作伙伴为各行业打造的多款机器人。从工业机械臂到家用服务机器人,从医疗手术辅助到工业边缘计算,NVIDIA 的全栈技术布局堪称 "惊喜连番",点燃了新一代机器人开发的浪潮。


  NVIDIA 创始人兼首席执行官黄仁勋表示:“机器人开发的 ChatGPT 时刻已然到来。物理 AI 领域取得了突破性进展,这类模型具备理解现实世界、推理和行动规划的能力,持续催生全新的应用场景。NVIDIA 的全栈技术,包括 Jetson 机器人开发处理器、CUDAOmniverse 和开源物理 AI 模型为我们全球合作伙伴生态系统注入动力,通过 AI 驱动机器人推动各行各业实现转型。”


  一直以来,机器人开发的周期长、成本高,还得投入大量专业知识,让不少开发者望而却步。但 NVIDIA 这次带来的全新技术,就像是给机器人开发按下了加速键,直接打通了整个机器人开发生命周期的工作流,这意味着新一代机器人开发浪潮即将汹涌来袭!这次还朝着构建 “专家级通用” 机器人的方向迈出了一大步,不仅通过开源模型帮开发者跳过资源密集的预训练阶段,直接聚焦新一代 AI 机器人和自主机器的创新打造,更打通了整个机器人开发生命周期的工作流,朝着 “专家级通用” 机器人的目标迈出关键一步。这类机器人能快速学习多种任务,未来有望实现 “一机多用”,彻底改变传统机器人功能单一的现状。


  这些全新开源模型已全面登陆 Hugging Face 平台,方便全球开发者获取使用:包括开源可定制的世界模型 NVIDIA CosmosTransfer 2.5  Cosmos Predict 2.5,能为物理 AI 提供基于物理原理的合成数据生成与机器人策略评估仿真支持;开源推理视觉语言模型(VLMNVIDIA Cosmos Reason 2,让智能机器能像人类一样看见、理解物理世界并采取行动;还有专为人形机器人打造的开放式推理视觉语言行动(VLA)模型 NVIDIA IsaacGR00T N1.6,可解锁全身控制能力,并借助 Cosmos Reason 增强推理和上下文理解。


  可扩展的仿真对于机器人训练和评估至关重要,但当前的工作流依然分散且难以管理。基准测试通常由人工操作且难以扩展,而端到端工作流需要跨异构计算资源进行复杂编排。


  NVIDIA 这次在 GitHub 上发布了全新开源框架,堪称解决这些难题的 “神兵利器”,让复杂工作流 “化繁为简”,大幅加速从实验室研究到产业落地的进程。比如说 NVIDIA Isaac Lab-Arena,它是一个专门为大规模机器人策略评估与基准测试打造的协作系统 。它和光轮智能一起精心设计了评估层和任务层,还能和 LiberoRobocasa 等业界领先的基准测试体系对接,让测试流程变得标准化。以后机器人技能在部署到物理硬件之前,就能通过这个框架确保足够稳健和可靠,为机器人落地应用筑牢 “安全防线”。


  还有 NVIDIA OSMO,这个云原生编排框架就像一个超级命令中心,把机器人开发的各种流程都整合到了一起 。开发者可以通过它定义和运行跨各种计算环境的工作流,不管是合成数据生成、模型训练还是软件在环测试,都能轻松搞定,大幅缩短开发周期。目前, Hexagon Robotics 等机器人开发者已经开始使用 OSMO,而且它还被集成到了 Microsoft Azure Robotics Accelerator 工具链中,,生态影响力持续扩大。


  针对智能驾驶领域,NVDIA推出了Alpamayo系列开源AI模型、仿真工具及数据集,Alpamayo 系列引入基于思维链的 VLAVision-Language-Action)推理模型,用于对复杂驾驶场景进行逐步推演和逻辑表达,以提升决策透明度。


  在智能汽车的发展进程中,有一个难题始终像大山一样横在前面,那就是 “长尾” 场景 。像遇到突然冲到马路上的小动物、交通信号灯突然故障,这些罕见又复杂的情况,传统的辅助驾驶架构很难应付得来。因为传统架构把感知和规划分开了,一旦碰到突发状况,系统扩展性就跟不上了,就算这几年端到端学习取得了很大进步,但要解决这些极端情况,还是得靠能安全推理因果关系的模型。


  这时候,Alpamayo 系列带着基于思维链的 VLA 推理模型霸气登场!这个模型就像是给汽车的驾驶决策赋予了人类的思维能力 ,面对罕见或者全新的场景,它能一步步地分析,把整个思考过程和决策逻辑都清晰地展现出来,让驾驶过程变得更让人放心。比如说,当车辆快到一个十字路口时,它能这么思考:“我看到了一个停止标志,左边有车开过来,还有行人正在过马路。我得先减速,完全停下来,等行人通过人行横道,确认安全了再继续走。” 这样详细的推理过程,大大提升了驾驶能力和决策的可解释性,为智能汽车的安全信任体系打下了坚实的基础。


  此次 CES 上,NVIDIA 的技术布局不仅限于软件框架与模型创新,更有硬件算力的强力支撑。全新 NVIDIA JetsonT4000模组现已正式发售,搭载 Blackwell 架构,在70 瓦可配置功率范围内提供1200 FP4 TFLOPS 算力及 64GB 内存,性能较上一代提升 4 倍,成为能耗受限型自主系统的理想选择。而面向工业边缘场景的 NVIDIA IGX Thor 也将于本月晚些时候上市。


  从开源模型打破技术壁垒、落地多行业场景,到框架工具优化开发流程,再到硬件算力与生态资源的全面赋能,NVIDIA 用一场发布会展现了其重构机器人行业的决心与实力。随着物理 AI 技术的持续成熟,以及全球合作伙伴的深度参与,“专家级通用” 机器人正加速从概念走向现实,一场席卷工业、医疗、消费、交通等多领域的技术革命,已然拉开序幕。 



  文首图片 Caterpillar(左上)、LEM Surgical(右上)、智元机器人(左下)和 Franka Robotics(右下)提供。