首页 >> 综合要闻
观棋学下棋,它以职业5段实力击败人类对手
发布时间:2025-6-26 15:41:22    点击:5
来源:科学网

在围棋的黑白世界里,一场极具颠覆性的较量正在北京交通大学计算机科学与技术学院实验室上演。屏幕上,黑白棋子交替落子,执黑的AI全程未借助任何语言指令,仅凭观看数万局高手对战视频,便自主领悟了围棋规则,最终以职业5段的实力击败人类对手。

这场令人惊叹的“胜利”,正是北京交大与豆包大模型团队联合研发的视频生成实验模型VideoWorld的一次精彩亮相。

课题组探讨VideoWorld模型研发。北京交通大学供图

AI首次挣脱“文字枷锁”

传统AI模型如同依赖词典学步的孩童,必须借助语言标签或奖励机制才能理解世界。以教会AI打领结为例,需要将这一动作细致拆解为“左手持左边,右手持右边”等文字指令。面对复杂任务时,语言描述的局限性往往成为难以逾越的障碍,导致AI在执行任务时力不从心。

VideoWorld的出现为视觉智能推理研究带来新的思路。该模型仅依靠视频数据,就能让机器自主学习并掌握推理、规划和决策等复杂能力。不同于传统方式,它无需依赖强化学习中常见的搜索算法或奖励机制,在业内首次实现了不依赖语言模型的世界认知。

“我们的灵感源于自然界。”VideoWorld项目负责人、北京交通大学计算机科学与技术学院教授魏云超介绍,“大猩猩通过观察成年同类觅食,灵长类动物通过模仿社交行为获取生存技能,可见视觉才是生物认知世界的核心”。基于这一理念,团队开发出潜在动态模型,将视频帧间的动态变化压缩为高效特征。这使得AI能够如同人类婴儿一般,通过“观察、模仿、实践”的循环过程,掌握复杂技能,大幅提升学习知识的效率与效果。

实验结果令人瞩目。仅有300M参数的VideoWorld,在围棋任务中达到职业5段水平;在机器人控制场景里,成功完成机械臂操作、物品分拣等任务,展现出良好的泛化能力。

一场“反潮流”的科研突围

在大语言模型主导的AI 领域,VideoWorld的诞生堪称“逆向突围”。魏云超坦言:“当多数团队在语言模型的赛道上奋力疾驰时,我们选择回归视觉本质,探索视频生成模型处理复杂推理任务的可能性。”

这一选择源于团队对行业痛点的深刻洞察:语言难以涵盖现实世界的海量信息,而视频作为人类获取信息的主要载体,蕴含着更为丰富的知识。

然而,研发之路布满荆棘。魏云超坦言,首先,视频生成模型处理复杂推理任务的可行性尚无先例,缺乏可借鉴的方法;其次,基线模型的性能缺陷难以精准归因;此外,目标场景缺乏公开可用的实验数据,团队需要从无标签视频中提取有效特征,同时防止过度拟合。

确定实验环境是第一步。经过团队深入讨论,最终选择棋类游戏作为实验场景,因其在人工智能领域已有广泛应用基础。

确定实验环境后,团队开始着手制定技术方案。首要工作是选择严谨的基线方法,并确定合适的性能评估指标。受大语言模型成功经验启发,项目组决定采用类似语言模型的“下一标记预测”方式训练模型。

然而在基线模型的训练和评估过程中,团队发现了很多堵点问题,项目一度陷入停滞状态。

随后的几个月里,团队提出了多种改进方案。经过反复尝试与总结,发现有效压缩视频中的动态变化是提升生成模型推理能力的关键,这一发现最终确立了VideoWorld 的技术路线:潜在动态模型通过动态特征压缩与时空关系建模,将视频学习效率提升40%,并为模型可解释性开辟了新路径。

“从2024年2月项目启动到2025年2月论文被顶级会议IEEE国际计算机视觉与模式识别会议CVPR接收,这一年里,我们研究产生了约10TB的工作数据与模型文件,验证实验次数超1千次,仅围棋实验就迭代了上百种模型架构,论文从初稿到定稿修改了几十个版本。”项目组成员、VideoWorld论文第一作者、北京交通大学计算机学院博士生任中伟回忆道。

在一次次的失败与尝试中,任中伟也深刻认识到“科研突破源于持续迭代,前沿领域探索无现成路径,每一次失败都是成功的基石,需保持耐心与韧性,培养独立思考与自主验证能力,学会系统性分析问题本质”,这些宝贵经验成为他未来科研生涯的重要财富。

下一阶段,理解幽默或隐喻

在AI学习的广阔疆域中,VideoWorld正开辟着独特的探索路径。魏云超介绍道,该模型致力于从无标签视频中挖掘知识,实现从特定任务规则到高级推理、规划能力的跨越性学习。

与强化学习、监督学习和基于文本的学习等传统方法相比,VideoWorld展现出三大显著优势:其一,凭借统一的视觉表示,它对各类任务和交互界面展现出更强的泛化能力,能够在不同场景中灵活应用所学知识;其二,摒弃了繁琐的手动标注过程,极大减轻了数据预处理的负担,让研究人员得以将更多精力聚焦于核心算法研发;其三,相较于依赖文本描述的学习方式,VideoWorld能够捕捉到更为丰富、立体的现实世界信息,让AI认知更贴近人类感知世界的真实维度。

目前,VideoWorld的代码、数据与模型已在顶级会议IEEE国际计算机视觉与模式识别会议CVPR 2025上发布并全部开源,在学界引发热烈讨论。“虽然VideoWorld证明了纯视觉认知的可行性,但它目前仍处于概念验证阶段。”魏云超强调,“论文被接收后,我们已经开始下一阶段的研究。我们正在探索如何用VideoWorld的思路去解决更加实际且复杂的问题,比如通过视频学习烹饪、维修,甚至理解幽默或隐喻等”。

从依赖“文字拐杖”到拥有“视觉之眼”,VideoWorld为AI认知范式注入了新动力。正如团队在论文中所写:“当机器学会用眼睛‘阅读’世界,或许离真正的通用智能,又近了一步。”

首页 | PC版 | 关于我