Project Alexandria: Towards Freeing Scientific Knowledge from Copyright Burdens via LLMs

作者: Christoph Schuhmann, Gollam Rabby, Ameya Prabhu, Tawsif Ahmed, Andreas Hochlehnert, Huu Nguyen, Nick Akinci Heidrich, Ludwig Schmidt, Robert Kaczmarczyk, Sören Auer, Jenia Jitsev, Matthias Bethge

发布时间: 2025-02-27

来源: arxiv

研究方向: 利用大语言模型(LLMs)从受版权保护的科学文献中提取知识单元(Knowledge Units),以促进科学知识的开放共享。

主要内容

本文提出了一种通过LLMs将科学文献转化为知识单元(Knowledge Units)的方法,旨在将科学知识从版权限制中解放出来。知识单元通过结构化数据捕捉实体、属性和关系,避免了原始文本的风格和表达形式。文章从法律和技术两个角度论证了这种方法的可行性,并通过实验验证了知识单元在保留事实信息方面的有效性。

主要贡献

1. 提出了知识单元(Knowledge Units)的概念,通过LLMs从科学文献中提取结构化知识,避免直接复制受版权保护的文本。

2. 从德国版权法和美国合理使用原则的角度,论证了知识单元的合法性。

3. 通过多领域实验验证了知识单元在保留事实信息方面的有效性,实验结果表明知识单元能够保留约95%的原始文本信息。

4. 提供了开源工具,支持将科学文献转化为知识单元,推动科学知识的开放共享。

研究方法

1. 使用LLMs(如GPT-4、Llama等)从科学文献中提取知识单元,生成结构化数据。

2. 通过多领域(生物学、物理学、数学、计算机科学)的多项选择题(MCQ)实验,评估知识单元在保留事实信息方面的效果。

3. 使用n-gram重叠和抄袭检测工具,验证知识单元与原始文本的相似性,确保没有直接复制受版权保护的文本。

4. 结合德国版权法和美国合理使用原则,进行法律分析,确保知识单元的合法性。

实验结果

实验结果表明,知识单元能够有效保留原始文本中的事实信息。在多项选择题(MCQ)测试中,使用知识单元的模型表现接近使用原始文本的模型,准确率在90%以上。尽管在长文档处理中性能略有下降,但知识单元仍然保留了大部分关键信息。此外,n-gram重叠和抄袭检测结果显示,知识单元与原始文本的相似性极低,表明没有直接复制受版权保护的文本。

未来工作

未来的研究方向包括:1)提高知识单元的准确性和可靠性,通过交叉验证和社区驱动的修正机制减少幻觉;2)开发基于知识单元的教育和研究应用工具,如搜索接口和学习平台;3)建立知识单元的标准格式,促进知识的互操作性和重用;4)构建语义网络,将公开共享的知识单元互联,推动科学工作流的自动化和辅助。