LLM调参打不过传统算法

#ARTICLE HackerNews 2026.06.10

值得看指数 65.0 NO. 009 · 2026.06.10

发布2026/06/09Score73Comments12

为什么值得看

在固定搜索空间和计算预算下，CMA-ES、TPE等经典超参优化算法持续优于LLM智能体。LLM代理频繁触发OOM崩溃，稳定性成为最大瓶颈。

编辑判断

这个结果戳破了一个流行叙事：LLM的'通用推理能力'能自动替代领域专用算法。实际工程中，HPO的搜索空间往往可以明确定义，此时贝叶斯优化的样本效率优势很难被LLM的代码生成能力覆盖。

更值得警惕的是LLM代理的可靠性问题——12次实验里OOM崩溃率显著，这意味着在生产环境中用LLM做自动化调参，监控和回滚成本可能抵消掉'免手写搜索逻辑'的收益。如果你正在评估用LLM替代Optuna/Ray Tune的方案，这篇论文给出了明确的否定信号。

社区反馈

意见分歧 12 条评论

核心争论：LLM单独调参是否有效，还是必须与经典算法混合使用

harrigan

Somewhat related, the experiment ongoing at https://www.ecdsa.fail/ is fascinating: it's a competitive, leaderboard-style research challenge trying to optimise a quantum circuit for breaking ECDSA (specifically the elliptic-curve point addition in Shor's algorithm). It quickly surpas

nmfisher

I also just came across this: https://huggingface.co/spaces/gemma-challenge/gemma-dashboar... Agents collaborating to speed up gemma-4-E4B-it inference (tokens per second) on a fixed GPU.

josefritzishere

TDLR: No.

替代方案： CMA-ESTPEconstraint solversMonte CarloopenevolveKarpathy's autoresearch

查看原文 →