You Cannot Feed Two Birds with One Score: the Accuracy-Naturalness Tradeoff in Translation

作者: Gergely Flamich, David Vilar, Jan-Thorsten Peter, Markus Freitag

发布时间: 2025-04-03

来源: arxiv

研究方向: 机器翻译评估与优化

主要内容

本文探讨了机器翻译中的准确性与自然性之间的权衡问题。作者指出,现有的评估方法通常使用单一指标来衡量翻译质量,但这种方法无法全面反映系统的性能。因此,作者提出了一个基于信息理论的框架,并通过实证研究证明了准确性和自然性之间存在权衡。

主要贡献

1. 将信息理论中的失真感知理论扩展到翻译领域,并证明了准确性和自然性之间存在权衡。

2. 引入了仅针对目标语言的自然性评估方法,并建立了与统计距离之间的理论联系。

3. 使用大型语言模型生成的样本近似准确性和自然性曲线。

4. 使用理论解释了优化准确性指标时出现的现象,例如,优化翻译系统以适应特定准确性指标(如BLEU)最初可以提高系统的自然性,但过度拟合指标会显著降低其自然性。

5. 建议在评估翻译系统时,不应仅使用单一指标,而应在准确性和自然性平面上进行比较。

研究方法

1. 信息理论

2. 失真感知理论

3. 统计距离

4. 大型语言模型

5. 实证研究

实验结果

实验结果表明,准确性和自然性之间存在权衡,且在接近最佳性能点时,准确性和自然性之间存在反相关关系。此外,实验还表明,与基于BLEU等经典指标的系统相比,基于神经网络的系统在自然性方面表现更好,但在准确性方面可能不如前者。

未来工作

未来研究可以探索以下方面:1)开发新的评估方法,以更全面地衡量翻译质量;2)研究如何优化翻译系统,以在准确性和自然性之间取得更好的平衡;3)探索如何将信息理论应用于其他自然语言处理任务。