AMAZINGINDEX.COM 每日 AI 简报
60.0
VOL. 2026.04
2026.04.22
← 返回 2026.04.22 日报
日报快照 · Daily Snapshot
NO. 015

百年百科结构化,免版权AI训练数据

#ARTICLE HackerNews 2026.04.22
值得看指数 56.0 NO. 015 · 2026.04.22
发布2026/04/21Score60Comments36

这是将1911年版大英百科全书(公共领域)进行全面结构化、交叉引用和标注的数字版本。为AI训练提供高质量无版权历史知识语料,特别适合构建专业领域RAG系统和历史文本分析。

做专业领域RAG的团队之前大多依赖维基百科或自行爬取,但前者有版权限制且包含现代偏见,后者清理成本极高。这个项目把1911年版大英百科全书——公共领域最权威的英语知识库——做了完整结构化,包含4万篇文章和交叉引用链路,OCR质量经过人工校对。

如果你在做法律、历史或古典文学方向的AI应用,这是目前可用性最高的无版权知识基线。比Project Gutenberg的原始文本更适合直接用来构建向量数据库,省掉至少两周的数据清洗时间。

查看原文 →