多模态RAG一体化框架开源

#REPO GitHub Trending 2026.04.22

推荐指数 78.0 NO. 003 · 2026.04.22

Stars16,725

为什么值得看

RAG-Anything是一个支持VLM增强查询的一体化RAG框架，可原生处理包含图像的文档并进行跨模态语义检索。对于需要构建图文混合知识库的团队，无需再拼接OCR、Captioning和文本RAG多个组件，单个框架即可实现视觉-语言联合推理。

"RAG-Anything: All-in-One RAG Framework"

媒体预览

编辑判断

当前多数RAG方案处理图文混合文档时，需先用OCR或Image Captioning将图像转为文本，再接入标准文本检索流程，这会导致图表中的视觉细节（如颜色、布局、数据趋势）大量丢失。RAG-Anything直接集成VLM进行端到端的多模态检索，保留了原始视觉特征与文本的语义关联。

相比LlamaIndex的Multi-Modal Retrievers或LangChain的UnstructuredLoader，该框架的VLM-Enhanced模式是原生设计而非插件拼接，在检索含截图、流程图、产品照片的技术文档时，召回准确率通常比Captioning方案高15-30个百分点。

如果你正在构建需要理解UI界面、论文图表或电商商品图的RAG应用，建议用该框架替换传统的图像转文本预处理链路，直接测试其视觉问答能力。

Star History