You Cannot Feed Two Birds with One Score: the Accuracy-Naturalness Tradeoff in Translation
作者: Gergely Flamich, David Vilar, Jan-Thorsten Peter, Markus Freitag
发布时间: 2025-04-03
来源: arxiv
研究方向: 机器翻译评估与优化
主要内容
本文探讨了机器翻译中的准确性与自然性之间的权衡问题。作者指出,现有的评估方法通常使用单一指标来衡量翻译质量,但这种方法无法全面反映系统的性能。因此,作者提出了一个基于信息理论的框架,并通过实证研究证明了准确性和自然性之间存在权衡。
主要贡献
1. 将信息理论中的失真感知理论扩展到翻译领域,并证明了准确性和自然性之间存在权衡。
2. 引入了仅针对目标语言的自然性评估方法,并建立了与统计距离之间的理论联系。
3. 使用大型语言模型生成的样本近似准确性和自然性曲线。
4. 使用理论解释了优化准确性指标时出现的现象,例如,优化翻译系统以适应特定准确性指标(如BLEU)最初可以提高系统的自然性,但过度拟合指标会显著降低其自然性。
5. 建议在评估翻译系统时,不应仅使用单一指标,而应在准确性和自然性平面上进行比较。
研究方法
1. 信息理论
2. 失真感知理论
3. 统计距离
4. 大型语言模型
5. 实证研究
实验结果
实验结果表明,准确性和自然性之间存在权衡,且在接近最佳性能点时,准确性和自然性之间存在反相关关系。此外,实验还表明,与基于BLEU等经典指标的系统相比,基于神经网络的系统在自然性方面表现更好,但在准确性方面可能不如前者。
未来工作
未来研究可以探索以下方面:1)开发新的评估方法,以更全面地衡量翻译质量;2)研究如何优化翻译系统,以在准确性和自然性之间取得更好的平衡;3)探索如何将信息理论应用于其他自然语言处理任务。