LLM嵌入质量差的新解法
值得看指数 79.0 NO. 019 · 2026.06.09
upvotes69comments3
为什么值得看
EmbedFilter通过线性变换降低高频token对文本嵌入的干扰,提升语义表示质量并支持降维。对直接用LLM做embedding的RAG和检索系统有立竿见影的优化价值。
媒体预览
编辑判断
当前做RAG的团队普遍直接用OpenAI或开源LLM的hidden state做embedding,但高频词(如the、is)的噪声问题很少有人系统解决,通常靠加一层MLP投影或换更贵的模型硬扛。这篇的核心发现是:unembedding矩阵本身就可以当"特征透镜",不需要额外训练复杂模块,线性变换就能剥离频率干扰。
在MTEB上的提升幅度没有披露完整数字,但方法极简、零参数开销,适合已经卡在latency和成本上的生产系统直接嫁接。论文代码未明确标注是否开源,建议关注HuggingFace页面更新,如果放出权重,这可能是下半年最值得白嫖的embedding优化 trick。