PhiloBERTA: A Transformer-Based Cross-Lingual Analysis of Greek and Latin Lexicons
作者: Rumi A. Allbert, Makai L. Allbert
发布时间: 2025-03-10
来源: arxiv
研究方向: 古代语言语义分析与比较
主要内容
PhiloBERTA是一项基于Transformer的跨语言模型,旨在分析古希腊和拉丁词汇之间的语义关系。它通过分析经典文本中选定的词对,使用上下文嵌入和角度相似性指标来确定精确的语义对齐。
主要贡献
1. 一个结合角度相似分析和可视化技术的评估框架,用于隔离语言之间的语义关系。
2. 实证验证,表明词源相关对表现出系统性的保留(σ = 0.003),同时在与控制对中保持适当的区分(σ = 0.023)。
3. 展示了在抽象哲学概念中的稳健保留(例如,ἐπιστήμη-scientia:0.820,δικαιοσύνη-iustitia:0.814)。
4. 结合了跨语言对齐和历时建模的方法,强调了从古希腊和拉丁哲学语义学研究中获得的解释性见解。
研究方法
1. 使用Transformer架构生成上下文表示。
2. 通过角度相似性度量计算跨语言相似性。
3. 使用时间投影层处理历时变化。
4. 利用英语作为中转语言进行跨语言嵌入。
5. 结合静态和上下文嵌入方法。
6. 利用知识蒸馏技术处理资源稀缺的历时语料库。
7. 通过对抗性丢弃层在训练期间显式建模缺失的流派元数据。
实验结果
分析结果显示,词源相关的对与控制对之间存在显著差异,前者的平均相似性(µetymological = 0.814 ± 0.003)高于后者(µcontrol = 0.780 ± 0.023)。这表明语义关系在词源相关术语中的系统性保留。
未来工作
未来研究方向包括:结合明确的历时信息、结合文本分析与其他形式的证据(如手稿图像或考古数据)、分析不同哲学学校术语的语义相似性,以及将多模态证据从手稿和考古来源中整合。