A Light and Tuning-free Method for Simulating Camera Motion in Video Generation

作者: Quanjian Song, Zhihang Lin, Zhanpeng Zeng, Ziyue Zhang, Liujuan Cao, Rongrong Ji

研究方向: 视频生成与摄像机运动模拟

本文提出了一种名为LightMotion的轻量级、无需微调的摄像机运动模拟方法,用于视频生成。该方法通过在潜在空间中操作,避免了额外的微调、修复和深度估计,从而简化了流程。

ID: 2503.06508v1来源: arxiv发布时间: 2025-03-11

ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis

作者: Xukun Zhou, Fengxin Li, Ming Chen, Yan Zhou, Pengfei Wan, Di Zhang, Hongyan Liu, Jun He, Zhaoxin Fan

研究方向: 数字人动画、音频驱动手势合成、人工智能

提出了一种名为ExGes的音频驱动手势合成方法,通过检索增强的扩散框架,解决现有方法在生成手势时表达性差、语义不匹配等问题。

ID: 2503.06499v1来源: arxiv发布时间: 2025-03-11

Evaluation of Safety Cognition Capability in Vision-Language Models for Autonomous Driving

作者: Enming Zhang, Peizhe Gong, Xingyuan Dai, Yisheng Lv, Qinghai Miao

研究方向: 自动驾驶与视觉语言模型

本文提出了一种名为SCD-Bench的新型评估方法,用于评估自动驾驶中视觉语言模型(VLM)的安全认知能力。该方法通过四个维度的任务来评估VLM的安全认知能力,包括命令误解、恶意决策、感知诱导和道德困境。

ID: 2503.06497v1来源: arxiv发布时间: 2025-03-11

PerturboLLaVA: Reducing Multimodal Hallucinations with Perturbative Visual Training

作者: Cong Chen, Mingyu Liu, Chenchen Jing, Yizhou Zhou, Fengyun Rao, Hao Chen, Bo Zhang, Chunhua Shen

研究方向: 多模态大型语言模型(MLLM)的幻觉问题研究

本文针对多模态大型语言模型(MLLM)在密集图像描述任务中存在的幻觉问题进行研究。为了解决这一问题,作者们提出了一种名为PerturboLLaVA的新方法,旨在减少模型对语言先验的依赖,并提高其在视觉输入上的关注。此外,还引入了HalFscore这一新指标,用于更细致地评估密集图像描述的准确性和完整性。

ID: 2503.06486v1来源: arxiv发布时间: 2025-03-11

Sign Language Translation using Frame and Event Stream: Benchmark Dataset and Algorithms

作者: Xiao Wang, Yuehang Li, Fuling Wang, Bo Jiang, Yaowei Wang, Yonghong Tian, Jin Tang, Bin Luo

研究方向: 多模态手语翻译

该研究提出了一种基于RGB和事件流的多模态手语翻译方法,旨在提高手语翻译的准确性和鲁棒性。研究首先构建了一个大规模的多模态手语翻译数据集VECSL,然后提出了一种名为M2-SLT的新型手语翻译框架,该框架结合了细粒度微手势和粗粒度宏手势检索,实现了在VECSL数据集上的最佳性能。

ID: 2503.06484v1来源: arxiv发布时间: 2025-03-11

ExKG-LLM: Leveraging Large Language Models for Automated Expansion of Cognitive Neuroscience Knowledge Graphs

作者: Ali Sarabadani, Kheirolah Rahsepar Fard, Hamid Dalvand

研究方向: 认知神经科学知识图谱自动扩展

本文提出了一种名为ExKG-LLM的框架,旨在利用大型语言模型(LLM)自动扩展认知神经科学知识图谱(CNKG)。该框架通过从科学论文和临床报告中提取知识,提高CNKG的准确性、完整性和实用性。

ID: 2503.06479v1来源: arxiv发布时间: 2025-03-11

PDB: Not All Drivers Are the Same -- A Personalized Dataset for Understanding Driving Behavior

作者: Chuheng Wei, Ziye Qin, Siyan Li, Ziyan Zhang, Xuanpeng Zhao, Amr Abdelraouf, Rohit Gupta, Kyungtae Han, Matthew J. Barth, Guoyuan Wu

研究方向: 个性化驾驶行为分析

本文介绍了PDB(个性化驾驶行为)数据集,该数据集旨在通过收集多模态数据来分析个体驾驶行为。该数据集旨在解决现有驾驶数据集中忽视个体差异的问题,并提供了在可控条件下研究个性化驾驶行为的框架。

ID: 2503.06477v1来源: arxiv发布时间: 2025-03-11

SKG-LLM: Developing a Mathematical Model for Stroke Knowledge Graph Construction Using Large Language Models

作者: Ali Sarabadani, Kheirolah Rahsepar Fard, Hamid Dalvand

研究方向: 生物医学信息学、知识图谱、大型语言模型

本文提出了一种名为SKG-LLM的知识图谱构建方法,利用大型语言模型(LLM)和数学模型从与中风相关的文献中提取和构建知识图谱。该方法旨在通过分析复杂的实体关系,提高中风研究的准确性和深度。

ID: 2503.06475v1来源: arxiv发布时间: 2025-03-11

HuixiangDou2: A Robustly Optimized GraphRAG Approach

作者: Huanjun Kong, Zhefan Wang, Chenyang Wang, Zhe Ma, Nanqing Dong

研究方向: 自然语言处理,知识密集型应用,图检索增强生成(GraphRAG)

本文提出了一种名为HuixiangDou2的GraphRAG框架,旨在解决大型语言模型(LLM)在处理专业或新兴主题时的局限性。该框架通过将领域知识结构化为图来动态检索信息,并优化了检索机制和生成过程,以提高检索准确性和生成质量。

ID: 2503.06474v1来源: arxiv发布时间: 2025-03-12

Enhancing Layer Attention Efficiency through Pruning Redundant Retrievals

作者: Hanze Li, Xiande Huang

研究方向: 深度学习,神经网络优化,注意力机制

本文针对现有层注意力机制中存在的冗余问题,提出了一种名为ELA(Efficient Layer Attention)的架构,通过量化相邻层的注意力权重之间的相似度来识别并跳过冗余层,从而提高训练效率和模型性能。

ID: 2503.06473v1来源: arxiv发布时间: 2025-03-11