Effectiveness of Zero-shot-CoT in Japanese Prompts
作者: Shusuke Takayama, Ian Frank
发布时间: 2025-03-12
来源: arxiv
研究方向: 自然语言处理 (NLP) 和大型语言模型 (LLM) 的提示工程
主要内容
本研究比较了在 ChatGPT-3.5 和 GPT-4o-mini 中使用零样本思维链 (CoT) 提示在日语和英语中的有效性。研究人员评估了 CoT 提示在数学和推理任务中对大型语言模型性能的影响,并探讨了这些效果在日语中的迁移情况。
主要贡献
1. 比较了 CoT 提示在日语和英语中的有效性。
2. 研究了 CoT 提示在数学和推理任务中对 LLM 性能的影响。
3. 评估了 CoT 提示在 JMMLU 和 MMLU 数据集上的效果。
4. 揭示了 CoT 提示在不同 LLM 和不同语言中的不一致影响。
研究方法
1. 使用 ChatGPT-3.5 和 GPT-4o-mini 进行实验。
2. 在 JMMLU 和 MMLU 数据集上测试 CoT 提示的效果。
3. 比较了有 CoT 提示和无 CoT 提示的模型性能。
4. 进行了统计分析以评估 CoT 提示的影响。
实验结果
实验结果表明,对于 GPT-3.5,CoT 提示在英语中导致整体性能下降,但在某些推理任务中显示出一些好处。对于 GPT-4o-mini,CoT 提示在两种语言中都导致显著性能下降,只有少数日语任务类别显示出改进。CoT 提示在日语中的影响不如英语中明显,并且 GPT-4o-mini 的日语性能在没有 CoT 提示的情况下显著提高。
未来工作
未来的工作将需要进一步研究 CoT 提示的优化策略,并探索如何将不同语言中的见解应用于更广泛的模型行为改进。此外,需要更深入地理解 LLM 的内部推理结构,以及这些结构是通过显式提示还是作为下一代架构内在部分出现的。