PhiloBERTA: A Transformer-Based Cross-Lingual Analysis of Greek and Latin Lexicons

作者: Rumi A. Allbert, Makai L. Allbert

发布时间: 2025-03-10

来源: arxiv

研究方向: 古代语言语义分析与比较

主要内容

PhiloBERTA是一项基于Transformer的跨语言模型，旨在分析古希腊和拉丁词汇之间的语义关系。它通过分析经典文本中选定的词对，使用上下文嵌入和角度相似性指标来确定精确的语义对齐。

1. 一个结合角度相似分析和可视化技术的评估框架，用于隔离语言之间的语义关系。

2. 实证验证，表明词源相关对表现出系统性的保留（σ = 0.003），同时在与控制对中保持适当的区分（σ = 0.023）。

3. 展示了在抽象哲学概念中的稳健保留（例如，ἐπιστήμη-scientia：0.820，δικαιοσύνη-iustitia：0.814）。

4. 结合了跨语言对齐和历时建模的方法，强调了从古希腊和拉丁哲学语义学研究中获得的解释性见解。

1. 使用Transformer架构生成上下文表示。

2. 通过角度相似性度量计算跨语言相似性。

3. 使用时间投影层处理历时变化。

4. 利用英语作为中转语言进行跨语言嵌入。

5. 结合静态和上下文嵌入方法。

6. 利用知识蒸馏技术处理资源稀缺的历时语料库。

7. 通过对抗性丢弃层在训练期间显式建模缺失的流派元数据。

分析结果显示，词源相关的对与控制对之间存在显著差异，前者的平均相似性（µetymological = 0.814 ± 0.003）高于后者（µcontrol = 0.780 ± 0.023）。这表明语义关系在词源相关术语中的系统性保留。

未来研究方向包括：结合明确的历时信息、结合文本分析与其他形式的证据（如手稿图像或考古数据）、分析不同哲学学校术语的语义相似性，以及将多模态证据从手稿和考古来源中整合。