Published to RedNote
arxivpaper
🔥测试时课程合成:AI自我进化新突破! ## 模型自己出题考自己?这波操作让推理能力暴涨! 还在为LLM做难题时瞎猜而头疼吗?传统测试时训练(TTRL)直接拿超难的考题来练,结果模型连答案都蒙不对,用错误的“共识”来训练自己,越练越错😅。这篇NeurIPS论文提出了一个绝妙的想法:不让模型硬啃骨头,而是让它自己给自己出练习题! 核心思路太秀了:初始化两个“分身”,一个叫出题官(Synthesizer),另一个叫解题官(Solver)。它们协同进化,动态生成一套量身定制的“习题集”。🔥 ## 双Agent共舞:如何实现动态出题? 这个方法的关键在于“协同进化”的闭环: 1. 解题官先试水:面对一道真题,解题官尝试解答多次。 2. 出题官看人下菜碟:根据解题官的当前水平(比如哪些题能做对/做错),出题官对原题进行改写和变换,生成一系列难度适中、但核心考点相似的“模拟题”。 3. 混合训练与反馈循环:解题官在“真题+模拟题”的混合题库上继续训练和优化。同时,它在模拟题上的表现会作为信号反馈给出题官,指导后者下次如何出更适合的题目。 这就形成了一个完美的自适应课程!题目难度始终卡在模型的“能力边界”上,既不会太简单没提升🚀也不会太难导致学歪。 ## 效果有多强?数学Benchmark全面碾压! 论文在多个数学推理基准上进行了测试,结果堪称降维打击: - 在Qwen2.5-Math-1.5B模型上,TTCS在6个数学数据集上的平均准确率达到 40.72%。 - 这比传统的测试时强化学习(TTRL)方法直接提升了 4.86个百分点! - 更重要的是🎯这种方法展现出了优秀的泛化能力。即使在MMLU-Pro、SuperGPQA等通用领域推理任务上🌍经过数学题库“特训”后的模型也能有效迁移能力。 这意味着模型不是死记硬背📈而是通过这套自生成的课程真正掌握了底层的推理模式。 ## 一句话总结 别再让AI死磕难题了!让它学会给自己布置合适的作业📚才是自我进化的王道。这篇论文打开了一扇新的大门🚪:从被动的测试适应转向主动的课程构建🔮未来完全自主学习的智能体或许就从这里诞生。 🔗 论文链接:[https://arxiv.org/abs/2601.22628](https://arxiv.org/abs/2601.22628) 论文:TTCS: Test-Time Curriculum Synthesis for Self-Evolving 链接:https://arxiv.org/abs/2601.22628
#学术科研#人工智能#论文分享#AIEye
7 images2/3/2026
arxivpaper
SSL绝了!智能体优化的甜点学习法🔥 ## 智能体训练新范式!告别“非黑即白”的奖励机制 🔥 传统强化学习(RL)给智能体的反馈太粗糙了:任务成功就给1分,失败就给0分。这就像考试只分“及格”和“不及格”,完全忽略了90分和60分的区别! 这种“二进制奖励”导致三大问题: 优化方向模糊、学习效率低下、策略容易过拟合。 清华&小米团队提出了SSL框架,彻底改变了这一局面。 ## “甜区学习”:像打网球一样训练AI 🎾 灵感来源于网球的“甜区”(Sweet Spot)——球拍的最佳击球点。 SSL的核心思想很简单却强大:根据轨迹的质量进行分层奖励。 不再只有成功/失败两种状态。 SSL将整个解空间划分为多个质量等级的区域(Zone)。 离完美解决方案越近的轨迹,获得的奖励就越高。 这种方法为策略优化提供了更清晰、更有方向性的梯度信号。 理论证明,SSL能保持最优解的排序,并显著提升梯度信噪比。 ## 性能暴涨2.5倍!横扫12个基准测试 🚀 实验结果令人震撼: 在GUI界面感知、短/长期规划、复杂推理等12个不同任务上, SSL均大幅超越了使用传统二进制或连续奖励的基线方法。 最关键的是样本效率! SSL仅需GRPO方法40%的训练样本,就能达到相同甚至更好的性能。 在某些任务上实现了高达 2.5倍的样本效率提升。 这意味着用更少的数据,训练出更强的智能体。这波操作太强了! ## 一句话总结 如果你还在用简单的成功/失败来训练AI代理,那真的out了! SSL提供了一种通用、高效且强大的分层奖励原则, 让智能体学习更快、表现更稳、理解更深。这是迈向更鲁棒自主智能的关键一步! 🔗 论文链接:https://arxiv.org/abs/2601.22491 论文:SSL: Sweet Spot Learning for Differentiated Guidance in Agentic Optimization 链接:https://arxiv.org/abs/2601.22491
#学术科研#人工智能#论文分享#AIEye
7 images2/3/2026
arxivpaper
无限RLVR任务生成法🔥颠覆性突破! 传统强化学习依赖可验证奖励,但高质量训练数据稀缺。现有方法需昂贵人工标注或局限于数学、编程等可自动验证领域,模型学完有限数据后性能即停滞。 OpenAI使用的“Golden Goose”技术将“填空题”转为“多选题”,从而把海量不可验证的网络文本转化为RL训练数据。具体步骤:1. 从文本中识别并遮盖关键推理步骤;2. 将被遮盖内容作为正确答案;3. 生成几个相似但错误的干扰项。这样,任何含推理过程的文字都能变成带标准答案的选择题。该方法已从AoPS数学论坛、MegaScience教材等处生成了超过70万个高质量RL任务数据集GooseReason。 实验使用Qwen-4B-Instruct模型:在原有ProRL数据上训练时,300步后性能卡顿甚至下降;加入GooseReason新数据后,训练曲线持续上升。最终得到的GooseReason-4B-Instruct在15个评测基准上刷新了同规模指令微调模型的SOTA记录。 在网络安全垂直领域,此前无开源RLVR数据可用。研究团队直接从FineWeb网络爬虫提取相关内容,用Golden Goose生成了18万个网络安全任务。结果仅用100步RL训练的小模型就在3个网安基准上取得绝对提升4.44%的成绩,远超之前SOTA的1.44%提升。 这项研究表明:互联网知识无限,“填空变选择”等方法可将看似无用的网络文本转化为驱动AI持续进化的燃料。 论文链接:https://arxiv.org/abs/2601.22975 论文:Golden Goose: A Simple Trick to Synthesize Unlimited RLVR Tasks from Unverifiable Internet Text 链接:https://arxiv.org/abs/2601.22975
#学术科研#人工智能#论文分享#AIEye
7 images2/3/2026
arxivpaper
🔥思维链渲染!推理能力暴涨3倍 ## 推理速度暴涨的秘密!用图片压缩思维链,这波操作太强了🔥 传统思维链(CoT)让大模型变聪明了,但代价是生成大量中间文本,计算开销巨大。最近兴起的“隐式推理”想压缩这个过程,却总是效果暴跌——因为没人知道该怎么正确压缩。 今天介绍的ReGuLaR给出了一个绝妙答案:把思维链画成图! ## OpenAI都在用的视觉黑科技,竟然能指导推理? 核心思想简单又深刻:既然文字冗长,那就把它渲染成图像。一张图的信息密度远高于一串token。 具体怎么玩? 1. 把完整的文字推理过程变成几张图片 2. 用视觉编码器提取密集的语义表示 3. 用这些视觉表示来“调教”隐式推理状态 相当于给压缩过程装上了GPS导航系统🚀 不再是盲目地丢掉信息,而是有目的地保留关键语义。 ## 性能碾压所有对手!长度缩短90%还能更强 实验结果让人震惊: - 在GSM8K数学题上准确率高达95.6%,比之前的隐式推理方法高出近10个百分点! - 推理步骤长度只有原来的1/10(K≪L),效率直接拉满 - 更厉害的是:在多模态复杂任务上甚至超越了原始显式CoT 因为它天然支持图文混合渲染🎨 遇到图表、公式时优势更大。 ## 一句话总结:这是给大模型装上“思考快进键” ReGuLaR证明了视觉引导才是隐式推理的正确打开方式。不再需要逐字生成中间步骤,直接用紧凑的视觉表征驱动思考过程。 未来每个高效的大模型可能都需要这个能力——毕竟谁不想又快又准呢?🤔 🔗 论文链接:https://arxiv.org/abs/2601.23184 论文:ReGuLaR: Variational Latent Reasoning Guided by Rendered Chain-of-Thought 链接:https://arxiv.org/abs/2601.23184
#学术科研#人工智能#论文分享#AIEye
7 images2/3/2026
arxivpaper
挖掘模型宝藏!🔥 3个隐藏技巧大公开 ## 模型仓库里藏着多少“宝藏”? Hugging Face上有几百万个微调模型,但大家用的总是那几个官方版本。这真的是因为官方版最好吗?我们评估了2000多个模型后发现:大量被忽视的冷门模型,性能远超热门选择!这些就是“隐藏的宝藏”。 用户默认选热门,不是因为它们最强,而是因为信息不对称。超过90%的优秀模型根本没有性能文档😅。这意味着巨大的效率浪费。 ## 数学暴涨12.8%,成本一分不加! 我们的实验覆盖了Qwen、Mistral、Llama等主流家族。结果太震撼了🔥: 在Llama-3.1-8B家族中,一个几乎没人下载的冷门模型,把GSM8K数学题准确率从83.2%直接拉到96.0%!推理成本完全不变。 更绝的是,每个任务都有专属“宝藏”。比如Qwen-3B的一个数学特化版,性能直逼7B基础版(参数少一半)。这说明社区的选择机制严重失效了。 ## 如何50倍速挖到宝? 手动测几千个模型要跑几十亿次推理?不可能🙅♂️ 我们把这个问题变成了“多臂老虎机”:用最少的测试次数找出最好的手臂(模型)。核心创新是改造Sequential Halving算法: 1️⃣ 让所有候选模型共享同一组测试问题 2️⃣ 采用激进的淘汰策略 最终只需要每个模型测50次就能锁定Top3! 相比穷举法提速超过50倍🚀平均性能还能提升4.5%。这套系统可以轻松集成到现有平台中。 ## AI时代的淘金热来了 别再盲目跟风下载热门模型了!真正的强者可能藏在角落无人问津。我们的方法就像给整个开源社区装上了雷达🔍未来每个人都能快速找到最适合自己任务的专属神器。 论文证明:开放生态的价值远未被充分挖掘。下一次技术突破或许就来自某个被遗忘的checkpoint✨ 🔗 论文链接:https://arxiv.org/abs/2601.22157 论文:Discovering Hidden Gems in Model Repositories 链接:https://arxiv.org/abs/2601.22157
#学术科研#人工智能#论文分享#AIEye
7 images2/2/2026
arxivpaper
🔥视觉记忆革命!让AI看懂复杂布局 视觉记忆革命!MemOCR将文本压缩成图片,推理性能暴涨8倍。传统方法要么塞满原始对话(冗余),要么写固定密度的摘要。关键信息和背景细节占用相同token空间并不合理。 MemOCR带来颠覆思路:直接把记忆“画”出来!通过2D视觉布局实现自适应信息密度。重要内容用大字体、加粗标题突出;次要细节缩小排版。一张图能容纳海量token才能表达的信息。 其工作流程分为两步,类似人类记笔记和复习。 第一步是文本域起草。模型接收新信息后,增量更新一份富文本文档(类似Markdown)。它会主动为不同部分打上“视觉优先级标签”,比如用#标题强调核心证据。 第二步是视觉域阅读。系统将富文本渲染成2D图片作为全部工作记忆!回答时模型直接“看”图寻找答案。预算紧张时降低分辨率即可压缩成本。 训练采用预算感知目标函数,让模型在不同压缩级别下保持性能——既要保证关键证据在低分辨率下可读,又要确保高清晰度时有足够细节。 在HotpotQA等长程推理基准测试中: - 充足预算时:全面超越基于文本的记忆代理 - 极端压缩时(仅10%原大小):性能下降远小于基线 - 最关键指标:达到相同准确率所需有效上下文减少约8倍! 可视化分析发现:经过强化学习训练后,模型学会了把更重要信息放在更显眼位置(如左上角)。这种智能空间布局是纯文本无法实现的优势。 告别线性增长的token开销吧!MemOCR证明视觉化记忆在有限预算下的效率提升是指数级的,将为长程Agent应用打开新想象空间🚀 论文:MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning 链接:https://arxiv.org/abs/2601.21468
#学术科研#人工智能#论文分享#AIEye
7 images2/2/2026