扩散模型4倍速无损生成文本
Orthrus 用双视图扩散架构让 LLM 像扩散模型一样并行生成 token,在 Qwen3 上实现 4.25 倍加速且保证严格无损。这对推理成本敏感的 AI 产品团队是实质性利好,可能改变自回归生成的工程范式。
AutoTTS用编码代理在离线回放环境中自动搜索测试时缩放策略,无需梯度更新和LLM在线调用。对需要优化推理成本又受限于手工设计启发式的团队,这提供了一条可复现、可自动化的替代路径。
The offical repo for "LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling"
TTS(Test-Time Scaling)领域目前的主流做法是人工设计投票、树搜索或过程奖励等启发式策略,比如Google的Gemini Thinking和OpenAI的o1系列都依赖大量工程调优。AutoTTS的核心差异化在于把策略空间变成可执行的Python代码,让agent在离线环境里自动进化,单次搜索成本可以压到极低。
这跟去年Google DeepMind的FunSearch有相似的思想,但FunSearch面向数学猜想发现,AutoTTS直接瞄准LLM推理这个更实用的场景。已经开源且复现门槛不高,如果你在优化自家模型的推理链路但受限于人力做策略实验,这个工具值得作为基线跑一遍。
需要注意的局限:回放环境的构建质量决定了搜索上限,复杂动态任务(如多轮工具调用)的state/action抽象仍需要大量人工设计,"自动"是有前提的。
首个用编码代理自动发现测试时缩放策略的自动化框架,填补手工启发式与梯度优化之间的空白。
独特价值:零梯度、零在线调用,纯离线代理搜索实现推理成本优化,降低策略发现门槛。