AMAZINGINDEX.COM 每日 AI 简报
54.0
VOL. 2026.06
2026.06.09
← 返回 2026.06.09 日报
日报快照 · Daily Snapshot
NO. 019

LLM嵌入质量差的新解法

#HF_PAPERS HuggingFace Papers 2026.06.09
值得看指数 79.0 NO. 019 · 2026.06.09
upvotes69comments3

EmbedFilter通过线性变换降低高频token对文本嵌入的干扰,提升语义表示质量并支持降维。对直接用LLM做embedding的RAG和检索系统有立竿见影的优化价值。

LLM嵌入质量差的新解法

当前做RAG的团队普遍直接用OpenAI或开源LLM的hidden state做embedding,但高频词(如the、is)的噪声问题很少有人系统解决,通常靠加一层MLP投影或换更贵的模型硬扛。这篇的核心发现是:unembedding矩阵本身就可以当"特征透镜",不需要额外训练复杂模块,线性变换就能剥离频率干扰。

在MTEB上的提升幅度没有披露完整数字,但方法极简、零参数开销,适合已经卡在latency和成本上的生产系统直接嫁接。论文代码未明确标注是否开源,建议关注HuggingFace页面更新,如果放出权重,这可能是下半年最值得白嫖的embedding优化 trick。

查看原文 →