EgoBlind: Towards Egocentric Visual Assistance for the Blind People

作者: Junbin Xiao, Nanxin Huang, Hao Qiu, Zhulin Tao, Xun Yang, Richang Hong, Meng Wang, Angela Yao

研究方向: 视觉辅助与视觉语言模型

本文提出了EgoBlind,这是一个首个以盲人为对象,用于评估当代多模态大型语言模型(MLLMs)辅助能力的视觉问答(VQA)数据集。EgoBlind包含来自盲人日常生活场景的1200多段视频和4927个问题,这些问题由盲人直接提出或生成,以反映他们在各种场景下对视觉辅助的需求。

ID: 2503.08221v1来源: arxiv发布时间: 2025-03-12

CL-MVSNet: Unsupervised Multi-view Stereo with Dual-level Contrastive Learning

作者: Kaiqiang Xiong, Rui Peng, Zhe Zhang, Tianxing Feng, Jianbo Jiao, Feng Gao, Ronggang Wang

研究方向: 计算机视觉,多视图立体(MVS),无监督学习

本文提出了一种名为CL-MVSNet的无监督多视图立体(MVS)方法,旨在解决传统基于光度一致性的无监督MVS方法在难以区分区域和视点相关效应(如低纹理区域和反射)上的局限性。该方法通过集成图像级和场景级对比学习分支,以及引入新的光度一致性损失,提高了MVS的鲁棒性和泛化能力。

ID: 2503.08219v1来源: arxiv发布时间: 2025-03-12

DeepRAG: Building a Custom Hindi Embedding Model for Retrieval Augmented Generation from Scratch

作者: Nandakishor M

研究方向: 自然语言处理(NLP)和检索增强生成(RAG)

本文提出了一种名为DeepRAG的框架,用于从头开始构建针对印地语的高质量文本嵌入模型,以用于检索增强生成应用。该框架涵盖了从语料库收集、特定于印地语的SentencePiece分词器训练、Transformer架构设计,到对比学习技术进行模型训练的端到端过程。

ID: 2503.08213v1来源: arxiv发布时间: 2025-03-12

OLMD: Orientation-aware Long-term Motion Decoupling for Continuous Sign Language Recognition

作者: Yiheng Yu, Sheng Liu, Yuan Feng, Min Xu, Zhelun Jin, Xuhua Yang

研究方向: 连续手语识别 (CSLR)

本文针对连续手语识别中的多方向和长期运动问题,提出了一种名为 OLMD (Orientation-aware Long-term Motion Decoupling) 的新框架。该框架通过长期运动聚合 (LMA) 模块高效地聚合长期运动,并将多方向信号解耦成易于理解的组件。此外,通过解耦复杂的运动成水平和垂直分量,提高了模型的运动纯净度,并增强了多尺度特征和模型泛化能力。

ID: 2503.08205v1来源: arxiv发布时间: 2025-03-12

A Cascading Cooperative Multi-agent Framework for On-ramp Merging Control Integrating Large Language Models

作者: Miao Zhang, Zhenlong Fang, Tianyi Wang, Qian Zhang, Shuai Lu, Junfeng Jiao, Tianyu Shi

研究方向: 智能交通系统与多智能体强化学习

本文提出了一种名为CCMA(级联协作多智能体)的框架,旨在通过结合强化学习(RL)和大型语言模型(LLM)来改善高速公路入口合并控制。该框架将多智能体优化问题分为三个级别:个体、区域和全局,并采用不同的方法来优化每个级别。

ID: 2503.08199v1来源: arxiv发布时间: 2025-03-12

Guess What I am Thinking: A Benchmark for Inner Thought Reasoning of Role-Playing Language Agents

作者: Rui Xu, MingYu Wang, XinTao Wang, Dakuan Lu, Xiaoyu Tan, Wei Chu, Yinghui Xu

研究方向: 角色扮演语言代理(RPLAs)的内部思维推理

本文提出了一种名为ROLETHINK的基准,用于评估角色扮演语言代理的内部思维推理能力。通过构建金集和银集,分别比较生成的思维与原始角色独白以及专家合成的角色分析,评估了角色思维生成。本文还提出了MIRROR方法,通过检索记忆、预测角色反应和综合动机来生成角色思维,并通过实验验证了其在RPLAs中的重要性。

ID: 2503.08193v1来源: arxiv发布时间: 2025-03-12

RigoChat 2: an adapted language model to Spanish using a bounded dataset and reduced hardware

作者: Gonzalo Santamaría Gómez, Guillem García Subies, Pablo Gutiérrez Ruiz, Mario González Valero, Natàlia Fuertes, Helena Montoro Zamorano, Carmen Muñoz Sanz, Leire Rosado Plaza, Nuria Aldama García, David Betancur Sánchez, Kateryna Sushkova, Marta Guerrero Nieto, Álvaro Barbero Jiménez

研究方向: 自然语言处理(NLP)和大型语言模型(LLM)的优化与适应

本文研究了如何利用有限的计算资源,通过数据收集、处理和模型训练,优化和适应大型语言模型,使其在西班牙语任务中表现更佳。

ID: 2503.08188v1来源: arxiv发布时间: 2025-03-12

ProtTeX: Structure-In-Context Reasoning and Editing of Proteins with Large Language Models

作者: Zicheng Ma, Chuanliu Fan, Zhicong Wang, Zhenyu Chen, Xiaohan Lin, Yanheng Li, Shihao Feng, Jun Zhang, Ziqiang Cao, Yi Qin Gao

研究方向: 蛋白质科学和大型语言模型

本文介绍了一种名为ProtTeX的新型框架,该框架可以将蛋白质序列、结构和文本信息统一编码为离散的符号空间,从而提高大型语言模型(LLM)在蛋白质科学领域的应用能力。通过将蛋白质结构和序列信息纳入LLM的训练和推理过程中,ProtTeX能够帮助LLM更好地理解蛋白质功能、结构和性质,并实现蛋白质的生成和设计。

ID: 2503.08179v2来源: arxiv发布时间: 2025-03-13

Privacy-Enhancing Paradigms within Federated Multi-Agent Systems

作者: Zitong Shi, Guancheng Wan, Wenke Huang, Guibin Zhang, Jiawei Shao, Mang Ye, Carl Yang

研究方向: 隐私增强的联邦多智能体系统(Federated Multi-Agent Systems, FMAS)

本文针对基于大型语言模型(LLM)的多智能体系统(MAS)在敏感领域的隐私保护挑战,提出了联邦MAS的概念,并介绍了与传统联邦学习(FL)的区别。针对异构隐私协议、多方对话结构差异和动态对话网络结构等关键挑战,提出了嵌入式隐私增强智能体(EPEAgents)解决方案,通过最小化数据流,确保仅共享与任务相关的智能体特定信息。

ID: 2503.08175v1来源: arxiv发布时间: 2025-03-13

Investigating the Effectiveness of a Socratic Chain-of-Thoughts Reasoning Method for Task Planning in Robotics, A Case Study

作者: Veronica Bot, Zheyuan Xu

研究方向: 机器人学与自然语言处理

该研究旨在探索将大型语言模型(LLM)应用于机器人任务规划中的效果,特别是针对需要空间感知的机器人任务。研究通过将LLM与Socratic Chain-of-Thought(SocraCoT)推理方法结合,评估了三种推理策略的有效性:非CoT/非SocraCoT、仅CoT和SocraCoT。

ID: 2503.08174v1来源: arxiv发布时间: 2025-03-13