百年百科结构化,免版权AI训练数据
值得看指数 56.0 NO. 015 · 2026.04.22
发布2026/04/21Score60Comments36
为什么值得看
这是将1911年版大英百科全书(公共领域)进行全面结构化、交叉引用和标注的数字版本。为AI训练提供高质量无版权历史知识语料,特别适合构建专业领域RAG系统和历史文本分析。
编辑判断
做专业领域RAG的团队之前大多依赖维基百科或自行爬取,但前者有版权限制且包含现代偏见,后者清理成本极高。这个项目把1911年版大英百科全书——公共领域最权威的英语知识库——做了完整结构化,包含4万篇文章和交叉引用链路,OCR质量经过人工校对。
如果你在做法律、历史或古典文学方向的AI应用,这是目前可用性最高的无版权知识基线。比Project Gutenberg的原始文本更适合直接用来构建向量数据库,省掉至少两周的数据清洗时间。