Cross-Lingual IPA Contrastive Learning for Zero-Shot NER

作者: Jimin Sohn, David R. Mortensen

发布时间: 2025-03-11

来源: arxiv

研究方向: 低资源语言下的零样本命名实体识别

主要内容

该研究旨在通过减少不同语言之间国际音标（IPA）转录的音素表示差异，使在资源丰富的语言上训练的模型能够有效地应用于低资源语言。研究提出了一个名为CONLIPA的数据集，并使用该数据集提出了一种跨语言IPA对比学习方法（IPAC），以减少具有相似发音的高资源语言之间的音素表示差距。

1. 提出了CONLIPA数据集，包含来自10个常用语言家族的10种英语和资源丰富的语言的IPA对。

2. 提出了使用CONLIPA数据集的跨语言IPA对比学习方法（IPAC），旨在减少具有相似发音的高资源语言之间的音素表示差距。

3. 研究了仅使用音素输入的单模态对比学习，而不包含图像或音频等多模态输入。

4. 首次使用LLM（如ChatGPT）提取同源词对，并使用这些对训练模型。

5. 使用WikiANN NER数据集评估了提出的方法，并将其与基线方法进行比较，实验结果验证了该方法的有效性，并证明了其在低资源语言零样本NER任务中的显著优势。

1. CONtrastive Learning with IPA (CONLIPA)数据集构建

2. Cross-lingual IPA Contrastive Learning (IPAC)方法

3. 使用InfoNCE损失函数进行对比学习

4. 使用ChatGPT提取同源词对

5. 使用WikiANN NER数据集进行实验评估

实验结果表明，与现有的基于字符、字符图和基本音素模型的模型相比，该方法在所有案例中都表现出更好的性能。此外，该方法在严格零样本设置下，即在从未见过的低资源语言上进行的推理中，也显示出优异的性能。

未来的工作可以包括扩展CONLIPA数据集以包含更多语言家族，以及探索将IPAC方法应用于其他自然语言处理任务，如机器翻译和语音识别。