努力成为工程造价信息资讯类第一门户!

帮助中心 广告联系

苏州工程造价信息网-一级造价师,二级造价师,报考条件,考试科目,培训,注册-苏州造价信息网

热门关键词: 

  【新智元导读】奥特曼罕见地承认了自己犯下的「历史错误」,LeCun发文痛批硅谷一大常见病——错位优越感。DeepSeek的终极意义在哪?圈内热转的这篇分析指出,相比R1,R1-Zero具有更重要的研究价值,因为它打破了终极的人类输入瓶颈!

  居然能逼得OpenAI CEO奥特曼承认:「我们在开源/开放权重AI模型方面,一直站在了历史的错误一边。」

  高级阶段的症状,是认为小圈子就能垄断好的想法。而晚期症状就是,假设来自他人的创新都是靠作弊。

  ARC Prize联合创始人Mike Knoop发出长文中总结道——R1-Zero打破了最终的人类输入瓶颈——专家CoT标注!其中一个例子,就是监督微调(SFT)。

  这是因为,R1-Zero完全依赖强化学习(RL),而不使用人类专家标注的监督微调(SFT)。

  这就表明,在某些领域,SFT并非实现准确清晰CoT的必要条件,完全有可能让AI通过纯粹的RL方法实现广泛推理能力。

  上周,DeepSeek发布了他们新的R1-Zero和R1「推理」系统,在ARC-AGI-1基准测试上的表现可与OpenAI的o1系统相媲美。

  2024年12月,OpenAI发布了一个新的突破性系统o3,经过验证,该系统在低算力模式下得分76%,高算力模式下得分88%。

  尽管o3在ARC-AGI-1基准测试中取得了突破性的成绩,但这一科技大事件却在主流媒体中几乎未被报道,也未引起广泛关注。

  幸运的是,借助ARC-AGI-1,以及现在(几乎)开源的R1-Zero和R1,我们能够进一步加深对这一领域的理解。

  使用人工专家(「监督微调」SFT)和自动化机器(「强化学习」RL)的组合对中间的CoT步骤进行标注。

  一个关键的发现是,LLM推理系统在适应新颖性(以及提高可靠性)方面的提升,主要沿着以下三个维度展开:

  o1和o3都在ARC-AGI-1基准测试上表现出对推理计算量的对数式改进,即它们在测试时使用越多的计算资源,基准准确率就越高。

  ARC Prize团队认为,DeepSeek最有趣的做法是单独发布了R1-Zero。R1-Zero不使用SFT(即不依赖人工标注),完全依赖强化学习(RL)。

  此外,DeepSeek自己发布的基准测试结果也表明R1-Zero和R1的表现相近,例如在 MATH AIME 2024上的得分分别为71%和76%(相比之下,基础模型DeepSeek V3的得分仅为约40%)。

  在论文中,R1-Zero的作者指出:「DeepSeek-R1-Zero在可读性较差和语言混杂等方面存在挑战」,这一点也在网络上得到了印证。

  然而,在ARC Prize团队的测试中,他们却几乎没有发现R1-Zero在ARC-AGI-1上表现出不连贯性,而这一测试任务与该系统通过强化学习训练的数学和编程领域相似。

  在具有强可验证性的领域,SFT(即人工专家标注)并非实现准确且清晰的 CoT(思维链)推理的必要条件。

  这一点符合直觉,因为语言本质上也是一种推理DSL。相同的「词」可以在一个领域中学习,并在另一个领域中应用,就像程序一样。

  最终,R1-Zero展示了一种潜在的扩展路径——即使在训练数据采集阶段,也完全消除了人工瓶颈。

  接下来的关键观察点在于:SFT是否仍然是CoT搜索和采样的必要条件,或者是否可以构建一个类似「R2-Zero」的系统,在相同的对数式推理计算扩展曲线上继续提升准确率。

  根据R1-Zero的实验结果,团队认为,在这种假设的扩展版本中,SFT并不是超越ARC-AGI-1所必需的条件。

  这两点都将极大地推动推理计算的需求,同时也不会抑制对更强计算资源的需求,反而会进一步增加计算需求。

  ARC Prize团队曾与数百位试图在业务中部署AI智能体的Zapier客户交流过,他们的反馈高度一致:「我还不信任它们,因为它们的工作表现不够稳定。」

  而更强的泛化能力,要求AI能够适应全新的、未见过的情况。如今,已有证据表明这一观点是正确的。

  过去被认为计算机无法解决的问题,如今都可以用金钱衡量其解决成本。随着AI计算效率的提升,这些成本也将逐渐下降。

  过去,大多数训练数据要么是购买的,要么是从网络爬取的,要么是由现有的LLM合成生成(例如蒸馏或数据增强)。

  AI行业通常将「合成数据」视为质量较低的数据,这些数据通常是通过LLM循环生成的,仅仅是为了增加训练数据的总体规模,但其收益会逐渐递减。

  如今,借助推理系统和验证器,我们可以创造全新的、有效的数据来进行训练。这可以通过两种方式实现:

  拥有最多付费用户的AI公司将拥有巨大的数据垄断优势,因为这些用户在无形中资助了新高质量数据的创建,而这些数据反过来又进一步提升模型能力,使其更受用户青睐……由此形成一个自增强的良性循环。

  如果我们能够突破人类专家CoT标注的瓶颈,并构建一个极高效的搜索/合成+验证系统来自动生成新数据,那么可以预见,未来将会有大量计算资源投入到这些推理系统中。

  因为这些系统的训练效果将直接与资金投入和数据输入量挂钩,也就是说,只要投入资金和原始数据,模型就会变得更强。

  AI 系统的效率提升不仅会推动更多的应用,这不仅符合杰文斯悖论,更重要的是,更高的计算效率解锁了全新的训练范式。

  这将帮助我们更快地厘清当前AI研究的前沿在哪里,并推动一波技术创新浪潮,从而加速通向 AGI的进程。

  已经有几位研究者告诉ARC Prize团队,他们计划在2025年ARC奖中使用R1风格的系统,这让人非常期待看到最终的结果。

  R1的开源,对整个世界来说都是一件好事。DeepSeek推动了科学的前沿发展,并为AI 研究带来了新的突破。

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

推荐阅读

免责声明

本网转载作品的目的在于传递更多信息,涉及作品内容、

版权等问题,请联系我们进行修改或删除!