Compositional Subspace Representation Fine-tuning for Adaptive Large Language Models

作者: Andy Zhou

研究方向: 自然语言处理(NLP)和参数高效的模型微调(PEFT)

提出了一种名为Compositional Subspace Representation Fine-tuning (CS-ReFT) 的方法,用于解决大语言模型(LLM)在多任务适应中的交叉任务干扰问题。

ID: 2503.10617v1来源: arxiv发布时间: 2025-03-16

Dual-Stage Cross-Modal Network with Dynamic Feature Fusion for Emotional Mimicry Intensity Estimation

作者: Jun Yu, Lingsi Zhu, Yanjun Chi, Yunxiang Zhang, Yang Zheng, Yongqi Wang, Xilong Lu

研究方向: 情感模拟强度(EMI)估计和跨模态情感识别

提出了一种基于双阶段跨模态对齐框架的情感模拟强度(EMI)估计方法,用于理解和增强人机交互体验。

ID: 2503.10603v1来源: arxiv发布时间: 2025-03-15

TruthPrInt: Mitigating LVLM Object Hallucination Via Latent Truthful-Guided Pre-Intervention

作者: Jinhao Duan, Fei Kong, Hao Cheng, James Diffenderfer, Bhavya Kailkhura, Lichao Sun, Xiaofeng Zhu, Xiaoshuang Shi, Kaidi Xu

研究方向: 大型视觉语言模型(LVLM)的可信度与幻觉问题

该论文研究了大型视觉语言模型(LVLM)中的对象幻觉(OH)问题,并提出了一种名为TruthPrInt的解决方案,以减轻OH。该方案通过分析LVLM的内部状态,如隐藏状态,来识别和减轻幻觉。

ID: 2503.10602v1来源: arxiv发布时间: 2025-03-15

How to Protect Yourself from 5G Radiation? Investigating LLM Responses to Implicit Misinformation

作者: Ruohao Guo, Wei Xu, Alan Ritter

研究方向: 大型语言模型(LLM)的安全性与可靠性研究

本文研究了大型语言模型在处理用户查询中隐含的虚假信息时的表现。作者构建了一个名为ECHOMIST的数据集,用于评估LLM在识别和反驳隐含虚假信息方面的能力。通过实验发现,当前LLM在处理此类信息时表现不佳,存在误导用户的潜在风险。

ID: 2503.09598v1来源: arxiv发布时间: 2025-03-13

Auspex: Building Threat Modeling Tradecraft into an Artificial Intelligence-based Copilot

作者: Andrew Crossman, Andrew R. Plummer, Chandra Sekharudu, Deepak Warrier, Mohammad Yekrangian

研究方向: 基于生成式人工智能的威胁建模

本文介绍了Auspex,一个利用生成式人工智能方法构建的威胁建模系统。该系统通过将威胁建模人员的实战知识编码到驱动生成式人工智能威胁建模系统的提示中,实现了威胁建模的自动化和高效化。

ID: 2503.09586v1来源: arxiv发布时间: 2025-03-13

Cost-Optimal Grouped-Query Attention for Long-Context LLMs

作者: Yingfa Chen, Yutong Wu, Xu Han, Zhiyuan Liu, Maosong Sun

研究方向: 大型语言模型(LLM)的优化与高效处理

该研究旨在通过优化Transformer架构中的分组查询注意力(GQA)机制,降低LLM在处理长文本时的计算和内存成本,同时保持其语言建模能力。

ID: 2503.09579v1来源: arxiv发布时间: 2025-03-13

Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models

作者: Marianne Arriola, Aaron Gokaslan, Justin T Chiu, Zhihan Yang, Zhixuan Qi, Jiaqi Han, Subham Sekhar Sahoo, Volodymyr Kuleshov

研究方向: 自然语言处理,语言模型

本文研究了扩散语言模型在自然语言处理领域的应用,提出了一种新的块扩散语言模型(BD3-LMs),该模型结合了离散去噪扩散模型和自回归模型的优点,能够生成任意长度的序列,并提高了推理效率。

ID: 2503.09573v1来源: arxiv发布时间: 2025-03-13

Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models

作者: Qiguang Chen, Libo Qin, Jinhao Liu, Dengyun Peng, Jiannan Guan, Peng Wang, Mengkang Hu, Yuhang Zhou, Te Gao, Wanxiang Che

研究方向: 长链式思维(Long CoT)在大型语言模型(LLM)中的应用与评估

本文对长链式思维(Long CoT)在大型语言模型(LLM)中的应用进行了全面的调查和分析,包括其与传统短链式思维(Short CoT)的区别、关键特征、关键现象、分析评估方法以及未来研究方向。

ID: 2503.09567v2来源: arxiv发布时间: 2025-03-14

Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models

作者: Qiguang Chen, Libo Qin, Jinhao Liu, Dengyun Peng, Jiannan Guan, Peng Wang, Mengkang Hu, Yuhang Zhou, Te Gao, Wangxiang Che

研究方向: 大型语言模型(LLM)的推理能力提升

本文针对大型语言模型(LLM)在推理能力方面的提升进行了深入研究,重点探讨了长链式思维(Long CoT)在LLM推理中的应用,并对相关技术进行了全面分析。

ID: 2503.09567v1来源: arxiv发布时间: 2025-03-13

Global Convergence and Rich Feature Learning in $L$-Layer Infinite-Width Neural Networks under $μ$P Parametrization

作者: Zixiang Chen, Greg Yang, Qingyue Zhao, Quanquan Gu

研究方向: 深度学习理论,神经网络优化,特征学习

该论文研究了在无限宽度L层神经网络中,使用张量程序(TP)框架下的训练动力学。主要关注在最大更新参数化(µP)和轻微的激活函数条件下,随机梯度下降(SGD)如何使网络学习与初始值显著不同的线性独立特征。这些丰富的特征空间捕捉了相关数据信息,并确保训练过程的任何收敛点都是全局最小值。

ID: 2503.09565v1来源: arxiv发布时间: 2025-03-13