Availability-aware Sensor Fusion via Unified Canonical Space for 4D Radar, LiDAR, and Camera

作者: Dong-Hee Paek, Seung-Hyun Kong

研究方向: 自动驾驶(AD)领域中的多传感器融合

提出了一种名为可用性感知传感器融合(ASF)的新方法,用于在自动驾驶中融合来自相机、激光雷达和4D雷达的数据。ASF通过统一规范投影(UCP)和传感器间的跨注意力(CASAP-PN)来提高融合的鲁棒性,即使在传感器退化或故障的情况下也能保持高性能。

ID: 2503.07029v1来源: arxiv发布时间: 2025-03-11

Erase Diffusion: Empowering Object Removal Through Calibrating Diffusion Pathways

作者: Yi Liu, Hao Zhou, Wenxiang Shang, Ran Lin, Benlei Cui

研究方向: 计算机视觉,图像处理,图像修复

本文提出了一种名为EraDiff的新型去噪扩散模型,旨在通过校准扩散路径来增强对象去除能力。该模型针对图像修复中的去除任务进行了优化,旨在在去除对象的同时保持周围内容的视觉一致性。

ID: 2503.07026v1来源: arxiv发布时间: 2025-03-11

Weak Supervision for Improved Precision in Search Systems

作者: Sriram Vasudevan

研究方向: 搜索引擎优化、弱监督学习、深度学习

本文提出了一种基于弱监督学习的方法,旨在通过推断查询-文档对的质历来提高大规模搜索引擎的精确度。该方法结合了领域知识、有限的标注数据和自动化标签函数,以生成高质量的训练数据,从而在不牺牲大量标注工作的情况下,提升搜索系统的性能。

ID: 2503.07025v1来源: arxiv发布时间: 2025-03-11

Combating Partial Perception Deficit in Autonomous Driving with Multimodal LLM Commonsense

作者: Yuting Hu, Chenhui Xu, Ruiyang Qin, Dancheng Liu, Amir Nassereldine, Yiyu Shi, Jinjun Xiong

研究方向: 自动驾驶

该研究提出了一种名为LLM-RCO的框架,用于应对自动驾驶中感知缺陷的问题。该框架利用大型语言模型(LLM)的常识推理能力,通过四个关键模块(危险推理、短期运动规划、动作条件验证和安全性约束生成)与动态驾驶环境交互,从而实现主动和情境感知的控制动作,以克服感知缺陷带来的挑战。

ID: 2503.07020v1来源: arxiv发布时间: 2025-03-11

NukesFormers: Unpaired Hyperspectral Image Generation with Non-Uniform Domain Alignment

作者: Jiaojiao Li, Shiyao Duan, Haitao XU, Rui Song

研究方向: 超光谱图像生成与处理

该研究提出了一种名为NukesFormers的新型无监督超光谱图像生成框架,旨在解决当前无监督超光谱图像生成(UnHIG)任务中的挑战,如跨域特征挖掘、退化特征提取等。

ID: 2503.07004v1来源: arxiv发布时间: 2025-03-11

Social Bias Benchmark for Generation: A Comparison of Generation and QA-Based Evaluations

作者: Jiho Jin, Woosung Kang, Junho Myung, Alice Oh

研究方向: 语言模型的社会偏见评估与消除

本文提出了一种名为BBG(Bias Benchmark for Generation)的评估框架,用于评估大型语言模型(LLM)在故事生成任务中的社会偏见。通过将QA(Question Answering)任务中的BBQ(Bias Benchmark for QA)框架进行改造,BBG通过让LLM生成故事续写来评估其社会偏见,并与传统的QA评估方法进行了比较。

ID: 2503.06987v1来源: arxiv发布时间: 2025-03-11

Understanding the Learning Dynamics of LoRA: A Gradient Flow Perspective on Low-Rank Adaptation in Matrix Factorization

作者: Ziqing Xu, Hancheng Min, Lachlan Ewen MacDonald, Jinqi Luo, Salma Tarmoun, Enrique Mallada, Rene Vidal

研究方向: 机器学习,矩阵分解,低秩适应

本文研究了低秩适应(LoRA)在矩阵分解(MF)任务中的学习动态,特别是通过梯度流(GF)进行微调时的学习动态。作者分析了小初始化和光谱初始化对LoRA学习动态的影响,并提出了新的光谱初始化方法以改善学习性能。

ID: 2503.06982v1来源: arxiv发布时间: 2025-03-11

Lightweight Multimodal Artificial Intelligence Framework for Maritime Multi-Scene Recognition

作者: Xinyu Xi, Hua Yang, Shentai Zhang, Yijie Liu, Sijin Sun, Xiuju Fu

研究方向: 海洋多场景识别与智能海洋机器人

本文提出了一种用于海洋多场景识别的多模态人工智能框架,该框架整合了图像数据、文本描述和由多模态大型语言模型(MLLM)生成的分类向量,以提供更丰富的语义理解并提高识别精度。

ID: 2503.06978v1来源: arxiv发布时间: 2025-03-11

A Multimodal Benchmark Dataset and Model for Crop Disease Diagnosis

作者: Xiang Liu, Zhaoxiang Liu, Huan Hu, Zezhou Chen, Kohou Wang, Kai Wang, Shiguo Lian

研究方向: 农业领域中的多模态图像-文本问答系统,特别是在作物病害诊断中的应用。

本文提出了一种名为CDDM的数据集,用于作物病害诊断的多模态学习。该数据集包含137,000张作物病害图像和1百万个问答对,旨在通过结合视觉和文本数据,提高作物病害诊断的准确性和实用性。

ID: 2503.06973v1来源: arxiv发布时间: 2025-03-11

Multi-Behavior Recommender Systems: A Survey

作者: Kyungho Kim, Sunwoo Kim, Geon Lee, Jinhong Jung, Kijung Shin

研究方向: 多行为推荐系统(Multi-behavior Recommender Systems)

本文对多行为推荐系统进行了全面综述,重点关注数据建模、编码和训练三个关键步骤,并分析了现有方法在各个步骤中的具体应用和优缺点。

ID: 2503.06963v1来源: arxiv发布时间: 2025-03-11