Published to RedNote

arxivpaper

🔥测试时课程合成：AI自我进化新突破！ ## 模型自己出题考自己？这波操作让推理能力暴涨！还在为LLM做难题时瞎猜而头疼吗？传统测试时训练（TTRL）直接拿超难的考题来练，结果模型连答案都蒙不对，用错误的“共识”来训练自己，越练越错😅。这篇NeurIPS论文提出了一个绝妙的想法：不让模型硬啃骨头，而是让它自己给自己出练习题！核心思路太秀了：初始化两个“分身”，一个叫出题官（Synthesizer），另一个叫解题官（Solver）。它们协同进化，动态生成一套量身定制的“习题集”。🔥 ## 双Agent共舞：如何实现动态出题？这个方法的关键在于“协同进化”的闭环： 1. 解题官先试水：面对一道真题，解题官尝试解答多次。 2. 出题官看人下菜碟：根据解题官的当前水平（比如哪些题能做对/做错），出题官对原题进行改写和变换，生成一系列难度适中、但核心考点相似的“模拟题”。 3. 混合训练与反馈循环：解题官在“真题+模拟题”的混合题库上继续训练和优化。同时，它在模拟题上的表现会作为信号反馈给出题官，指导后者下次如何出更适合的题目。这就形成了一个完美的自适应课程！题目难度始终卡在模型的“能力边界”上，既不会太简单没提升🚀也不会太难导致学歪。 ## 效果有多强？数学Benchmark全面碾压！论文在多个数学推理基准上进行了测试，结果堪称降维打击： - 在Qwen2.5-Math-1.5B模型上，TTCS在6个数学数据集上的平均准确率达到 40.72%。 - 这比传统的测试时强化学习（TTRL）方法直接提升了 4.86个百分点！ - 更重要的是🎯这种方法展现出了优秀的泛化能力。即使在MMLU-Pro、SuperGPQA等通用领域推理任务上🌍经过数学题库“特训”后的模型也能有效迁移能力。这意味着模型不是死记硬背📈而是通过这套自生成的课程真正掌握了底层的推理模式。 ## 一句话总结别再让AI死磕难题了！让它学会给自己布置合适的作业📚才是自我进化的王道。这篇论文打开了一扇新的大门🚪：从被动的测试适应转向主动的课程构建🔮未来完全自主学习的智能体或许就从这里诞生。 🔗 论文链接：[https://arxiv.org/abs/2601.22628](https://arxiv.org/abs/2601.22628) 论文：TTCS: Test-Time Curriculum Synthesis for Self-Evolving 链接：https://arxiv.org/abs/2601.22628

#学术科研#人工智能#论文分享#AIEye

7 images2/3/2026

arxivpaper

SSL绝了！智能体优化的甜点学习法🔥 ## 智能体训练新范式！告别“非黑即白”的奖励机制 🔥 传统强化学习（RL）给智能体的反馈太粗糙了：任务成功就给1分，失败就给0分。这就像考试只分“及格”和“不及格”，完全忽略了90分和60分的区别！这种“二进制奖励”导致三大问题：优化方向模糊、学习效率低下、策略容易过拟合。清华&小米团队提出了SSL框架，彻底改变了这一局面。 ## “甜区学习”：像打网球一样训练AI 🎾 灵感来源于网球的“甜区”（Sweet Spot）——球拍的最佳击球点。 SSL的核心思想很简单却强大：根据轨迹的质量进行分层奖励。不再只有成功/失败两种状态。 SSL将整个解空间划分为多个质量等级的区域（Zone）。离完美解决方案越近的轨迹，获得的奖励就越高。这种方法为策略优化提供了更清晰、更有方向性的梯度信号。理论证明，SSL能保持最优解的排序，并显著提升梯度信噪比。 ## 性能暴涨2.5倍！横扫12个基准测试 🚀 实验结果令人震撼：在GUI界面感知、短/长期规划、复杂推理等12个不同任务上， SSL均大幅超越了使用传统二进制或连续奖励的基线方法。最关键的是样本效率！ SSL仅需GRPO方法40%的训练样本，就能达到相同甚至更好的性能。在某些任务上实现了高达 2.5倍的样本效率提升。这意味着用更少的数据，训练出更强的智能体。这波操作太强了！ ## 一句话总结如果你还在用简单的成功/失败来训练AI代理，那真的out了！ SSL提供了一种通用、高效且强大的分层奖励原则，让智能体学习更快、表现更稳、理解更深。这是迈向更鲁棒自主智能的关键一步！ 🔗 论文链接：https://arxiv.org/abs/2601.22491 论文：SSL: Sweet Spot Learning for Differentiated Guidance in Agentic Optimization 链接：https://arxiv.org/abs/2601.22491

#学术科研#人工智能#论文分享#AIEye

7 images2/3/2026

arxivpaper

无限RLVR任务生成法🔥颠覆性突破！传统强化学习依赖可验证奖励，但高质量训练数据稀缺。现有方法需昂贵人工标注或局限于数学、编程等可自动验证领域，模型学完有限数据后性能即停滞。 OpenAI使用的“Golden Goose”技术将“填空题”转为“多选题”，从而把海量不可验证的网络文本转化为RL训练数据。具体步骤：1. 从文本中识别并遮盖关键推理步骤；2. 将被遮盖内容作为正确答案；3. 生成几个相似但错误的干扰项。这样，任何含推理过程的文字都能变成带标准答案的选择题。该方法已从AoPS数学论坛、MegaScience教材等处生成了超过70万个高质量RL任务数据集GooseReason。实验使用Qwen-4B-Instruct模型：在原有ProRL数据上训练时，300步后性能卡顿甚至下降；加入GooseReason新数据后，训练曲线持续上升。最终得到的GooseReason-4B-Instruct在15个评测基准上刷新了同规模指令微调模型的SOTA记录。在网络安全垂直领域，此前无开源RLVR数据可用。研究团队直接从FineWeb网络爬虫提取相关内容，用Golden Goose生成了18万个网络安全任务。结果仅用100步RL训练的小模型就在3个网安基准上取得绝对提升4.44%的成绩，远超之前SOTA的1.44%提升。这项研究表明：互联网知识无限，“填空变选择”等方法可将看似无用的网络文本转化为驱动AI持续进化的燃料。论文链接：https://arxiv.org/abs/2601.22975 论文：Golden Goose: A Simple Trick to Synthesize Unlimited RLVR Tasks from Unverifiable Internet Text 链接：https://arxiv.org/abs/2601.22975

#学术科研#人工智能#论文分享#AIEye

7 images2/3/2026

arxivpaper

🔥思维链渲染！推理能力暴涨3倍 ## 推理速度暴涨的秘密！用图片压缩思维链，这波操作太强了🔥 传统思维链(CoT)让大模型变聪明了，但代价是生成大量中间文本，计算开销巨大。最近兴起的“隐式推理”想压缩这个过程，却总是效果暴跌——因为没人知道该怎么正确压缩。今天介绍的ReGuLaR给出了一个绝妙答案：把思维链画成图！ ## OpenAI都在用的视觉黑科技，竟然能指导推理？核心思想简单又深刻：既然文字冗长，那就把它渲染成图像。一张图的信息密度远高于一串token。具体怎么玩？ 1. 把完整的文字推理过程变成几张图片 2. 用视觉编码器提取密集的语义表示 3. 用这些视觉表示来“调教”隐式推理状态相当于给压缩过程装上了GPS导航系统🚀 不再是盲目地丢掉信息，而是有目的地保留关键语义。 ## 性能碾压所有对手！长度缩短90%还能更强实验结果让人震惊： - 在GSM8K数学题上准确率高达95.6%，比之前的隐式推理方法高出近10个百分点！ - 推理步骤长度只有原来的1/10（K≪L），效率直接拉满 - 更厉害的是：在多模态复杂任务上甚至超越了原始显式CoT 因为它天然支持图文混合渲染🎨 遇到图表、公式时优势更大。 ## 一句话总结：这是给大模型装上“思考快进键” ReGuLaR证明了视觉引导才是隐式推理的正确打开方式。不再需要逐字生成中间步骤，直接用紧凑的视觉表征驱动思考过程。未来每个高效的大模型可能都需要这个能力——毕竟谁不想又快又准呢？🤔 🔗 论文链接：https://arxiv.org/abs/2601.23184 论文：ReGuLaR: Variational Latent Reasoning Guided by Rendered Chain-of-Thought 链接：https://arxiv.org/abs/2601.23184

#学术科研#人工智能#论文分享#AIEye

7 images2/3/2026

arxivpaper

挖掘模型宝藏！🔥 3个隐藏技巧大公开 ## 模型仓库里藏着多少“宝藏”？ Hugging Face上有几百万个微调模型，但大家用的总是那几个官方版本。这真的是因为官方版最好吗？我们评估了2000多个模型后发现：大量被忽视的冷门模型，性能远超热门选择！这些就是“隐藏的宝藏”。用户默认选热门，不是因为它们最强，而是因为信息不对称。超过90%的优秀模型根本没有性能文档😅。这意味着巨大的效率浪费。 ## 数学暴涨12.8%，成本一分不加！我们的实验覆盖了Qwen、Mistral、Llama等主流家族。结果太震撼了🔥：在Llama-3.1-8B家族中，一个几乎没人下载的冷门模型，把GSM8K数学题准确率从83.2%直接拉到96.0%！推理成本完全不变。更绝的是，每个任务都有专属“宝藏”。比如Qwen-3B的一个数学特化版，性能直逼7B基础版（参数少一半）。这说明社区的选择机制严重失效了。 ## 如何50倍速挖到宝？手动测几千个模型要跑几十亿次推理？不可能🙅‍♂️ 我们把这个问题变成了“多臂老虎机”：用最少的测试次数找出最好的手臂（模型）。核心创新是改造Sequential Halving算法： 1️⃣ 让所有候选模型共享同一组测试问题 2️⃣ 采用激进的淘汰策略最终只需要每个模型测50次就能锁定Top3！相比穷举法提速超过50倍🚀平均性能还能提升4.5%。这套系统可以轻松集成到现有平台中。 ## AI时代的淘金热来了别再盲目跟风下载热门模型了！真正的强者可能藏在角落无人问津。我们的方法就像给整个开源社区装上了雷达🔍未来每个人都能快速找到最适合自己任务的专属神器。论文证明：开放生态的价值远未被充分挖掘。下一次技术突破或许就来自某个被遗忘的checkpoint✨ 🔗 论文链接：https://arxiv.org/abs/2601.22157 论文：Discovering Hidden Gems in Model Repositories 链接：https://arxiv.org/abs/2601.22157

#学术科研#人工智能#论文分享#AIEye

7 images2/2/2026

arxivpaper

🔥视觉记忆革命！让AI看懂复杂布局视觉记忆革命！MemOCR将文本压缩成图片，推理性能暴涨8倍。传统方法要么塞满原始对话（冗余），要么写固定密度的摘要。关键信息和背景细节占用相同token空间并不合理。 MemOCR带来颠覆思路：直接把记忆“画”出来！通过2D视觉布局实现自适应信息密度。重要内容用大字体、加粗标题突出；次要细节缩小排版。一张图能容纳海量token才能表达的信息。其工作流程分为两步，类似人类记笔记和复习。第一步是文本域起草。模型接收新信息后，增量更新一份富文本文档（类似Markdown）。它会主动为不同部分打上“视觉优先级标签”，比如用#标题强调核心证据。第二步是视觉域阅读。系统将富文本渲染成2D图片作为全部工作记忆！回答时模型直接“看”图寻找答案。预算紧张时降低分辨率即可压缩成本。训练采用预算感知目标函数，让模型在不同压缩级别下保持性能——既要保证关键证据在低分辨率下可读，又要确保高清晰度时有足够细节。在HotpotQA等长程推理基准测试中： - 充足预算时：全面超越基于文本的记忆代理 - 极端压缩时(仅10%原大小)：性能下降远小于基线 - 最关键指标：达到相同准确率所需有效上下文减少约8倍！可视化分析发现：经过强化学习训练后，模型学会了把更重要信息放在更显眼位置（如左上角）。这种智能空间布局是纯文本无法实现的优势。告别线性增长的token开销吧！MemOCR证明视觉化记忆在有限预算下的效率提升是指数级的，将为长程Agent应用打开新想象空间🚀 论文：MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning 链接：https://arxiv.org/abs/2601.21468

#学术科研#人工智能#论文分享#AIEye

7 images2/2/2026