LLM嵌入质量差的新解法

#HF_PAPERS HuggingFace Papers 2026.06.09

值得看指数 79.0 NO. 019 · 2026.06.09

upvotes69comments3

为什么值得看

EmbedFilter通过线性变换降低高频token对文本嵌入的干扰，提升语义表示质量并支持降维。对直接用LLM做embedding的RAG和检索系统有立竿见影的优化价值。

媒体预览

编辑判断

当前做RAG的团队普遍直接用OpenAI或开源LLM的hidden state做embedding，但高频词（如the、is）的噪声问题很少有人系统解决，通常靠加一层MLP投影或换更贵的模型硬扛。这篇的核心发现是：unembedding矩阵本身就可以当"特征透镜"，不需要额外训练复杂模块，线性变换就能剥离频率干扰。

在MTEB上的提升幅度没有披露完整数字，但方法极简、零参数开销，适合已经卡在latency和成本上的生产系统直接嫁接。论文代码未明确标注是否开源，建议关注HuggingFace页面更新，如果放出权重，这可能是下半年最值得白嫖的embedding优化 trick。

查看原文 →