经由过程有限的后练习『补丁』,就能完成AGI吗
栏目:专题报道 发布时间:2025-02-03 08:33
o1 模子的推出将研讨偏向从预练习带向了推理层,只管给年夜模子「打补丁」的方法获得了必定后果,但无穷地经由过程扩大测试时光盘算,就能实现通用人工智能吗?范围能扩大到什么水平?盘算资本、时光本钱成绩怎样处理?无穷的常识跟数据能否象征着年夜模子存在实在的泛化才能?强化进修之父 Richard Sutton 如许描述当下的业内研讨偏向,「就像是在路灯下找钥匙的成绩,我丢了钥匙会在路灯下找,由于那边能瞥见,只管那可能不是钥匙地点的处所。」分辨来自阿尔伯塔年夜学、Google DeepMind的两项研讨任务跳出了「在路灯下找钥匙」的视线范畴,指出了实现更强 AI 的两个可能偏向。目次01. o1 还不克不及称为 AGI:推理盘算之外,实现 AGI 另有哪些纷歧样的思绪?o1 离 AGI 另有多远?在推理阶段给年夜模子「打补丁」之外,实现 AGI 另有哪些思绪?02. 阿尔伯塔的 stream-x 算法:处理「流式阻碍」,为实现连续进修供给可能流式深度 RL 方式有哪些上风?对 Richard Sutton 推重的连续进修有何影响?03. Google DeepMind 的「苏格拉底进修」:扩大实现 AI 自立、自我完美才能的主要路过苏格拉底式的进修方式可能是实现自我完美 AI 的主要道路?存在哪些挑衅?01 o1 还不克不及称为 AGI:推理盘算之外,实现 AGI 另有哪些纷歧样的思绪?1、近期,OpenAI o1 模子的推出将 Scaling Laws 范式从预练习带向了推理层。随后海内多家年夜厂、AI 创企也连续宣布了类 o1 推理模子,如 R1-Lite(DeepSeek)、k0-math(月之暗面)、QwQ(阿里)等。AI 业内的存眷点逐步转向推理层。2、 只管 o1 等推理模子在庞杂推理等方面的才能明显晋升,但 o1 带来的范式改变仅是从记着谜底到记着准确的推理逻辑,从而输出准确论断。「测试时练习」技巧像是一块「补丁」,经由过程给年夜模子一个「常设影象」,常设调剂反映,让年夜模子可能答复成绩。只管年夜模子可能输出准确的谜底,但并不料味着其能真正懂得或存在推理才能。3、除了经由过程言语年夜模子偏向来增强深度进修来实现 AGI 的主流道路之外,AI 业内的年夜佬们提出了一些差别的思绪,如 Yann Lecun 提出的天下模子道路,Richard Sutton 提出的连续进修等。4、近期,有两项新的研讨任务跳出了「怎样更好地让言语模子在 Pre-training 阶段进修常识、在 Post-training/Inference 阶段进步表示」的视线范畴,指出了实现更强 AI 的两个可能思绪。① 遭到 Richard Sutton 的高度评估的阿尔伯塔年夜学的一项研讨任务,提出了一个新的深度强化进修算法「stream-x」,处理了流式深度强化进修中的流式阻碍成绩,为连续进修跟毕生进修供给了支持;② Google DeepMind 近期的一项任务提出了一种翻新性的 AI 递归自我完美的新方式,即「苏格拉底式进修」,冲破了传统练习数据的范围,是实现自立且自我完美的人工智能的主要道路。02 阿尔伯塔的 stream-x 算法:处理「流式阻碍」,为实现连续进修供给可能1、阿尔伯塔年夜学近期的一项新任务,失掉了强化进修之父 Richard Sutton 的推举。该任务提出了一个新的深度强化进修(Deep Reinforcement Learning,DRL)算法「stream-x」,处理了流式深度强化进修中的流式阻碍成绩。[1]① 「stream-x」算法可能在不教训回放(Experience Replay)、目的收集(Target Networks)或批量更新(Batch Updates)的情形下停止无效的进修。② 研讨者发明,「stream AC」算法可能在不存储跟重用样本的情形下,经由过程及时处置数据流,实现与 PPO 算法邻近的进修后果跟义务机能,乃至在某些庞杂情况中超出了批量强化进修算法的机能。2、比拟于现在主流的批量进修,流式进修有很年夜的开展空间,顺应于盘算资本受限跟须要及时决议的情况。特殊是在 TinyML 范畴,流式强化进修的上风更年夜...... 存眷