Effectiveness of Zero-shot-CoT in Japanese Prompts
作者: Shusuke Takayama, Ian Frank
研究方向: 自然语言处理 (NLP) 和大型语言模型 (LLM) 的提示工程
本研究比较了在 ChatGPT-3.5 和 GPT-4o-mini 中使用零样本思维链 (CoT) 提示在日语和英语中的有效性。研究人员评估了 CoT 提示在数学和推理任务中对大型语言模型性能的影响,并探讨了这些效果在日语中的迁移情况。
作者: Shusuke Takayama, Ian Frank
研究方向: 自然语言处理 (NLP) 和大型语言模型 (LLM) 的提示工程
本研究比较了在 ChatGPT-3.5 和 GPT-4o-mini 中使用零样本思维链 (CoT) 提示在日语和英语中的有效性。研究人员评估了 CoT 提示在数学和推理任务中对大型语言模型性能的影响,并探讨了这些效果在日语中的迁移情况。
作者: Wenxuan Huang, Bohan Jia, Zijie Zhai, Shaosheng Cao, Zheyu Ye, Fei Zhao, Zhe Xu, Yao Hu, Shaohui Lin
研究方向: 多模态大型语言模型(MLLM)的推理能力提升
本文研究了如何通过强化学习(RL)来提升MLLM的推理能力。作者提出了一种名为Vision-R1的推理MLLM,它结合了冷启动初始化和RL训练,旨在通过模态桥接和数据过滤来构建高质量的多模态CoT数据集,从而提高MLLM的推理能力。
作者: Wenxuan Huang, Bohan Jia, Zijie Zhai, Shaosheng Cao, Zheyu Ye, Fei Zhao, Yao Hu, Shaohui Lin
研究方向: 人工智能,大型语言模型(LLMs)的推理能力提升
本文研究了如何通过强化学习(RL)提升多模态大型语言模型(MLLMs)的推理能力。作者提出了一种名为Vision-R1的推理MLLM,通过冷启动初始化和RL训练相结合的方式,使模型能够生成更复杂、更接近人类思维的推理过程。
作者: Diego Bolliger, Lorenz Zauter, Robert Ziegler
研究方向: 多智能体强化学习(MARL)
本文提出了一种完全去中心化的多智能体深度确定性策略梯度(MADDPG)算法,用于解决合作、对抗和混合设置中的连续动作空间的多智能体强化学习问题。该算法通过应用网络通信方法,在智能体之间实现去中心化训练,同时允许在训练过程中进行本地通信。
作者: Dany Moshkovich, Hadar Mulian, Sergey Zeltyn, Natti Eder, Inna Skarbovsky, Roy Abitbol
研究方向: 智能体系统分析与优化
本文探讨了智能体系统(Agentic Systems)的观察性、分析和优化问题,特别是针对基于大型语言模型(LLMs)的智能体系统。由于智能体系统具有非确定性、动态性和复杂交互等特点,传统的评估和基准测试方法难以适用。
作者: Mahdi Zakizadeh, Mohammad Taher Pilehvar
研究方向: 自然语言处理 (NLP) 与偏见缓解
研究预训练语言模型 (PLM) 中性别偏见的编码模式,分析不同模型如何表示和传播性别信息,以及偏见缓解技术和微调对编码偏见的影响。
作者: Nimisha Karnatak, Adrien Baranes, Rob Marchant, Triona Butler, Kristen Olson
研究方向: 人工智能在广告创作中的应用,特别是针对小型企业主(SBOs)的生成式AI工具设计
本研究开发了一个名为ACAI的生成式AI广告创作工具,旨在帮助小型企业主创作与品牌一致的广告。研究通过用户研究探讨了ACAI在广告创作过程中的效果,并提出了改进AI协同创作工具的设计建议。
作者: Pouya Agheli, Nikolaos Pappas, Marios Kountouris
研究方向: 目标导向的语义通信和查询调度
本文研究了基于拉取模型的端到端状态更新系统中的查询调度问题。系统由多个感知代理(SAs)和动作代理(AAs)组成,SAs 监控具有多个属性的源,并将观察结果作为更新发送给 AAs。目标是通过优化查询时间来提高更新通信的有效性,同时考虑成本约束。
作者: Hongshen Xu, Zixv yang, Zichen Zhu, Kunyao Lan, Zihan Wang, Mengyue Wu, Ziwei Ji, Lu Chen, Pascale Fung, Kai Yu
研究方向: 自然语言处理,人工智能
本文研究了大型语言模型(LLM)中的一种新现象,称为LLM幻想,即高信念幻想。这种幻想是错误的输出,但具有异常高的置信度,使其更难检测和减轻。本文通过实证分析不同模型家族和尺寸在多个问答任务上的表现,揭示了幻想的普遍性和与幻觉的区别。LLM在幻想中表现出较低的真实性,并且难以通过微调或自我反思来克服。本文探讨了检索增强生成和多智能体辩论等缓解策略,以减轻幻想。
作者: Ming Zhang, Yuhui Wang, Yujiong Shen, Tingyi Yang, Changhao Jiang, Yilong Wu, Shihan Dou, Qinhao Chen, Zhiheng Xi, Zhihao Zhang, Yi Dong, Zhen Wang, Zhihui Fei, Mingyang Wan, Tao Liang, Guojun Ma, Qi Zhang, Tao Gui, Xuanjing Huang
研究方向: 对话系统,可控制推理,自然语言处理
本文提出了一种名为PFDial的对话指令微调方法,该方法基于UML流程图构建。通过将UML流程图转换为结构化的五元组(流程图描述、当前状态、用户输入、下一个状态、机器人输出),PFDial旨在帮助大型语言模型(LLMs)在遵循预定义流程约束的对话任务中实现精确的状态转换和推理。