Effectiveness of Zero-shot-CoT in Japanese Prompts

作者: Shusuke Takayama, Ian Frank

发布时间: 2025-03-12

来源: arxiv

研究方向: 自然语言处理 (NLP) 和大型语言模型 (LLM) 的提示工程

主要内容

本研究比较了在 ChatGPT-3.5 和 GPT-4o-mini 中使用零样本思维链 (CoT) 提示在日语和英语中的有效性。研究人员评估了 CoT 提示在数学和推理任务中对大型语言模型性能的影响，并探讨了这些效果在日语中的迁移情况。

主要贡献

1. 比较了 CoT 提示在日语和英语中的有效性。

2. 研究了 CoT 提示在数学和推理任务中对 LLM 性能的影响。

3. 评估了 CoT 提示在 JMMLU 和 MMLU 数据集上的效果。

4. 揭示了 CoT 提示在不同 LLM 和不同语言中的不一致影响。

研究方法

1. 使用 ChatGPT-3.5 和 GPT-4o-mini 进行实验。

2. 在 JMMLU 和 MMLU 数据集上测试 CoT 提示的效果。

3. 比较了有 CoT 提示和无 CoT 提示的模型性能。

4. 进行了统计分析以评估 CoT 提示的影响。

实验结果

实验结果表明，对于 GPT-3.5，CoT 提示在英语中导致整体性能下降，但在某些推理任务中显示出一些好处。对于 GPT-4o-mini，CoT 提示在两种语言中都导致显著性能下降，只有少数日语任务类别显示出改进。CoT 提示在日语中的影响不如英语中明显，并且 GPT-4o-mini 的日语性能在没有 CoT 提示的情况下显著提高。

未来工作

未来的工作将需要进一步研究 CoT 提示的优化策略，并探索如何将不同语言中的见解应用于更广泛的模型行为改进。此外，需要更深入地理解 LLM 的内部推理结构，以及这些结构是通过显式提示还是作为下一代架构内在部分出现的。