InternVQA: Advancing Compressed Video QualityAssessment with Distilling Large Foundation Model

作者: Fengbin Guan, Zihao Yu, Yiting Lu, Xin Li, Zhibo Chen

研究方向: 视频质量评估与压缩视频质量评估

本文研究了利用大型基础模型InternVideo2进行压缩视频质量评估的潜力。针对InternVideo2参数量大、资源消耗过高的缺点,提出了一种知识蒸馏方法,将大型模型的丰富压缩质量先验转移到小型模型中,以设计出轻量级的模型。

ID: 2502.19026v1来源: arxiv发布时间: 2025-02-27

Ground-level Viewpoint Vision-and-Language Navigation in Continuous Environments

作者: Zerui Li, Gengze Zhou, Haodong Hong, Yanyan Shao, Wenqi Lyu, Yanyuan Qiao, Qi Wu

研究方向: 视觉与语言导航(Vision-and-Language Navigation, VLN)

该研究主要关注在连续环境中,如何通过视觉与语言导航技术使机器人根据人类指令进行导航。研究着重解决人类视角与机器人视角之间的差异,以及单目传感器在真实环境中的局限性。

ID: 2502.19024v1来源: arxiv发布时间: 2025-02-27

Dealing with Inconsistency for Reasoning over Knowledge Graphs: A Survey

作者: Anastasios Nentidis, Charilaos Akasiadis, Angelos Charalambidis, Alexander Artikis

研究方向: 知识图谱推理与知识图谱质量

该论文主要研究了在知识图谱推理过程中如何处理不一致性。知识图谱的不一致性通常来源于数据的自动提取或多个数据集的整合,这会阻碍推理过程。论文分析了现有的处理不一致性方法的最新进展,主要涵盖了三个方向:a) 检测知识图谱中的不一致部分,b) 修复不一致的知识图谱,使其一致,以及 c) 在不一致的情况下进行推理。

ID: 2502.19023v1来源: arxiv发布时间: 2025-02-27

Robust Over-the-Air Computation with Type-Based Multiple Access

作者: Marc Martinez-Gost, Ana Pérez-Neira, Miguel Ángel Lagunas

研究方向: 无线通信与网络安全

本文研究了在拜占庭攻击环境下,基于类型多址接入(TBMA)的空中计算(AirComp)的鲁棒性。与传统的直接聚合(DA)方法相比,TBMA通过将数据分配到多个无线电资源,提高了抗攻击能力,并支持更广泛的函数计算。

ID: 2502.19014v1来源: arxiv发布时间: 2025-02-27

Distilling Reinforcement Learning Algorithms for In-Context Model-Based Planning

作者: Jaehyeon Son, Soochan Lee, Gunhee Kim

研究方向: 元强化学习(Meta-RL)与强化学习(RL)

本文研究了利用Transformer进行情境强化学习(in-context RL),提出了一种名为Distillation for In-Context Planning(DICP)的框架。该框架通过在情境中学习环境动态和改进策略,提高了强化学习算法的样本效率和适应性。

ID: 2502.19009v1来源: arxiv发布时间: 2025-02-27

A Multi-Agent DRL-Based Framework for Optimal Resource Allocation and Twin Migration in the Multi-Tier Vehicular Metaverse

作者: Nahom Abishu Hayla, A. Mohammed Seid, Aiman Erbad, Tilahun M. Getu, Ala Al-Fuqaha, Mohsen Guizani

研究方向: 多层级车联网元宇宙中的资源分配和虚拟孪生迁移

本文提出了一种基于多智能体深度强化学习(MADRL)的框架,用于在多层级车联网元宇宙中实现最优资源分配和虚拟孪生迁移。该框架集成了图卷积网络(GCN)、分层Stackelberg博弈激励机制和MADRL,旨在平衡多目标优化问题,如延迟降低、资源利用率和用户体验。

ID: 2502.19004v1来源: arxiv发布时间: 2025-02-27

The Sharpness Disparity Principle in Transformers for Accelerating Language Model Pre-Training

作者: Jinbo Wang, Mingze Wang, Zhanpeng Zhou, Junchi Yan, Weinan E, Lei Wu

研究方向: 自然语言处理(NLP)

该论文研究了Transformer架构中不同模块的锐度差异,并提出了一种名为Blockwise Learning Rate(BLR)的策略,旨在通过调整每个模块的学习率来加速大型语言模型(LLM)的预训练过程。

ID: 2502.19002v1来源: arxiv发布时间: 2025-02-27

PEToolLLM: Towards Personalized Tool Learning in Large Language Models

作者: Qiancheng Xu, Yongqi Li, Heming Xia, Fan Liu, Min Yang, Wenjie Li

研究方向: 个性化工具学习在大型语言模型中的应用

本文研究了在大型语言模型(LLMs)中实现个性化工具学习的任务,通过整合用户的交互历史来实现个性化的工具使用。文章提出了一个名为PEToolLLaMA的框架,该框架通过监督微调和直接偏好优化来训练LLMs,使其能够根据用户的显式需求和隐式偏好提供个性化的工具使用辅助。

ID: 2502.18980v1来源: arxiv发布时间: 2025-02-27

Low-Confidence Gold: Refining Low-Confidence Samples for Efficient Instruction Tuning

作者: Hongyi Cal, Jie Li, Wenzhen Dong

研究方向: 低置信度样本精炼与高效指令微调

该研究针对大型语言模型(LLMs)在指令微调(IFT)过程中数据集质量和效率的问题,提出了一种名为Low-Confidence Gold(LCG)的新型过滤框架。该框架通过基于质心的聚类和置信度引导选择,识别有价值的指令对,并使用半监督方法对代表样本进行轻量级分类器训练,以筛选高质量的数据子集。

ID: 2502.18978v2来源: arxiv发布时间: 2025-02-28

Low-Confidence Gold: Refining Low-Confidence Samples for Efficient Instruction Tuning

作者: Hongyi Cal, ie Li, Wenzhen Dong

研究方向: 自然语言处理,大型语言模型,指令微调

本文提出了一种名为Low-Confidence Gold (LCG)的新型数据过滤框架,用于提高指令微调的效率。该框架通过基于质心的聚类和置信度引导的选择来识别有价值的指令对,并使用半监督方法来构建高质量的数据子集。

ID: 2502.18978v1来源: arxiv发布时间: 2025-02-27