You Cannot Feed Two Birds with One Score: the Accuracy-Naturalness Tradeoff in Translation

作者: Gergely Flamich, David Vilar, Jan-Thorsten Peter, Markus Freitag

发布时间: 2025-04-03

来源: arxiv

研究方向: 机器翻译评估与优化

主要内容

本文探讨了机器翻译中的准确性与自然性之间的权衡问题。作者指出，现有的评估方法通常使用单一指标来衡量翻译质量，但这种方法无法全面反映系统的性能。因此，作者提出了一个基于信息理论的框架，并通过实证研究证明了准确性和自然性之间存在权衡。

1. 将信息理论中的失真感知理论扩展到翻译领域，并证明了准确性和自然性之间存在权衡。

2. 引入了仅针对目标语言的自然性评估方法，并建立了与统计距离之间的理论联系。

3. 使用大型语言模型生成的样本近似准确性和自然性曲线。

4. 使用理论解释了优化准确性指标时出现的现象，例如，优化翻译系统以适应特定准确性指标（如BLEU）最初可以提高系统的自然性，但过度拟合指标会显著降低其自然性。

5. 建议在评估翻译系统时，不应仅使用单一指标，而应在准确性和自然性平面上进行比较。

1. 信息理论

2. 失真感知理论

3. 统计距离

4. 大型语言模型

5. 实证研究

实验结果表明，准确性和自然性之间存在权衡，且在接近最佳性能点时，准确性和自然性之间存在反相关关系。此外，实验还表明，与基于BLEU等经典指标的系统相比，基于神经网络的系统在自然性方面表现更好，但在准确性方面可能不如前者。

未来研究可以探索以下方面：1）开发新的评估方法，以更全面地衡量翻译质量；2）研究如何优化翻译系统，以在准确性和自然性之间取得更好的平衡；3）探索如何将信息理论应用于其他自然语言处理任务。