Capture Global Feature Statistics for One-Shot Federated Learning

作者: Zenghao Guan, Yucan Zhou, Xiaoyan Gu

研究方向: 联邦学习(Federated Learning)

该论文提出了一种名为FedCGS的新型联邦学习算法,旨在解决传统联邦学习中通信成本高、易受隐私攻击等问题。FedCGS通过利用预训练模型捕获全局特征统计信息,实现无需训练且对异构性具有抵抗力的单次联邦学习。

ID: 2503.06962v1来源: arxiv发布时间: 2025-03-11

ReAgent: Reversible Multi-Agent Reasoning for Knowledge-Enhanced Multi-Hop QA

作者: Zhao Xinjie, Fan Gao, Rui Yang, Yingjian Chen, Yuyang Wang, Ying Zhu, Jiacheng Tang, Irene Li

研究方向: 知识增强的多跳问答(Multi-hop QA)

ReAgent是一种可逆的多智能体协同推理框架,旨在解决多跳问答中的错误累积问题。它通过引入文本检索、信息聚合和验证,使系统能够在推理过程中检测和纠正错误,从而提高问答结果的鲁棒性和可解释性。

ID: 2503.06951v1来源: arxiv发布时间: 2025-03-11

Large Language Model Guided Progressive Feature Alignment for Multimodal UAV Object Detection

作者: Wentao Wu, Chenglong Li, Xiao Wang, Bin Luo, Qi Liu

研究方向: 多模态无人机目标检测

针对现有多模态无人机目标检测方法中模态间语义差距导致的语义和空间对齐困难问题,提出了一种基于大型语言模型(LLM)引导的渐进式特征对齐网络(LPANet)。该方法利用LLM提取的语义特征来引导模态间的渐进式语义和空间对齐,从而提高检测性能。

ID: 2503.06948v1来源: arxiv发布时间: 2025-03-11

Effect of Selection Format on LLM Performance

作者: Yuchen Han, Yucheng Wu, Jeffrey Willard

研究方向: 自然语言处理,提示工程,特定领域任务

本文研究了大型语言模型(LLM)性能的关键方面:在提示中分类任务选项的最佳格式。通过广泛的实验研究,比较了两种选择格式——项目符号和普通英语——以确定它们对模型性能的影响。

ID: 2503.06926v1来源: arxiv发布时间: 2025-03-11

From Reusing to Forecasting: Accelerating Diffusion Models with TaylorSeers

作者: Jiacheng Liu, Chang Zou, Yuanhuiyi Lyu, Junjie Chen, Linfeng Zhang

研究方向: 计算机视觉与生成模型

本文提出了一种名为TaylorSeer的新方法,用于加速扩散模型,特别是扩散变换器(DiT),以提高图像和视频合成的效率。该方法通过预测未来时间步的特征来优化特征缓存,从而减少计算需求,同时保持生成质量。

ID: 2503.06923v1来源: arxiv发布时间: 2025-03-11

Improving cognitive diagnostics in pathology: a deep learning approach for augmenting perceptional understanding of histopathology images

作者: Xiaoqian Hu

研究方向: 计算病理学、图像处理、自然语言处理

本文提出了一种利用多模态模型(结合视觉Transformer和GPT-2)增强病理学图像分析的认知诊断方法。该方法通过在专用数据集ARCH上微调模型,捕捉病理图像的复杂性,生成准确、上下文相关的图像描述,从而提高医疗专业人员对疾病分类、分割和检测的认知能力。

ID: 2503.06894v1来源: arxiv发布时间: 2025-03-11

Policy Regularization on Globally Accessible States in Cross-Dynamics Reinforcement Learning

作者: Zhenghai Xue, Lang Feng, Jiacheng Xu, Kang Kang, Xiang Wen, Bo An, Shuicheng Yan

研究方向: 跨动态强化学习中的策略正则化

该研究针对从不同动态环境中收集的数据进行学习,提出了一种新的框架,该框架将奖励最大化与观察模仿相结合,并采用了一种基于-距离的正则化策略优化方法。该框架通过强制约束全局可访问状态(在所有考虑的动态中具有非零访问频率的状态)来减轻不可访问状态带来的挑战。

ID: 2503.06893v1来源: arxiv发布时间: 2025-03-11

Text-to-Image Diffusion Models Cannot Count, and Prompt Refinement Cannot Help

作者: Yuefan Cao, Xuyang Guo, Jiayan Huo, Yingyu Liang, Zhenmei Shi, Zhao Song, Jiahao Zhang, Zhen Zhuang

研究方向: 生成模型与文本到图像生成

该研究主要关注文本到图像生成模型中的计数能力,评估了最先进的扩散模型在遵循用户指令进行物体计数时的表现。

ID: 2503.06884v1来源: arxiv发布时间: 2025-03-11

Interactive Medical Image Analysis with Concept-based Similarity Reasoning

作者: Ta Duc Huy, Sen Kim Tran, Phan Nguyen, Nguyen Hoang Tran, Tran Bao Sam, Anton van den Hengel, Zhibin Liao, Johan W. Verjans, Minh-Son To, Vu Minh Hieu Phan

研究方向: 医学图像分析,可解释机器学习,交互式模型

本文提出了一种名为CSR(概念相似度推理)的新型网络,旨在解决医学图像分析中可解释性和交互性的问题。CSR通过在图像中搜索与概念原型相似的区域来对疾病进行分类,并通过原型图像和相似度地图提供解释。它允许医生在模型预测过程中进行交互,从而提高模型的准确性和透明度。

ID: 2503.06873v1来源: arxiv发布时间: 2025-03-11

Lost-in-the-Middle in Long-Text Generation: Synthetic Dataset, Evaluation Framework, and Mitigation

作者: Junhao Zhang, Richong Zhang, Fanshuang Kong, Ziyang Miao, Yanhan Ye, Yaowei Zheng

研究方向: 长文本生成与理解

本文研究了长文本生成中存在的“中间丢失”问题,并提出了LONGINOUTBENCH基准和RAL-WRITER方法来解决这一问题。LONGINOUTBENCH基准包含长输入和长输出的数据集和评估框架,用于评估长文本生成模型的性能。RAL-WRITER方法通过检索和重述重要内容来缓解“中间丢失”问题。

ID: 2503.06868v1来源: arxiv发布时间: 2025-03-11