Weakly Supervised Multiple Instance Learning for Whale Call Detection and Localization in Long-Duration Passive Acoustic Monitoring

作者: Ragib Amin Nihal, Benjamin Yen, Runwu Shi, Kazuhiro Nakadai

研究方向: 海洋生态监测与生物声学

本研究探讨了使用多重实例学习(MIL)在长时程水下声学记录中进行分析的有效性,同时减少对详细时间标注的依赖。提出了一种名为DSMIL-LocNet的模型,用于鲸鱼叫声检测和定位,该模型仅使用袋级别的标签。

ID: 2502.20838v1来源: arxiv发布时间: 2025-03-03

LADs: Leveraging LLMs for AI-Driven DevOps

作者: Ahmad Faraz Khan, Azal Ahmad Khan, Anas Mohamed, Haider Ali, Suchithra Moolinti, Sabaat Haroon, Usman Tahir, Mattia Fazzini, Ali R. Butt, Ali Anwar

研究方向: 人工智能驱动的DevOps自动化与云管理

该研究提出了一种名为LADs的基于大型语言模型(LLM)的框架,旨在解决云配置和部署的自动化问题。LADs通过结合多种优化技术,如指令提示、检索增强生成、少量学习、思维链和反馈式提示链,实现自动化云管理,确保配置的准确性和效率。

ID: 2502.20825v1来源: arxiv发布时间: 2025-03-03

MV-MATH: Evaluating Multimodal Math Reasoning in Multi-Visual Contexts

作者: Peijie Wang, Zhongzhi Li, Fei Yin, Dekang Ran, Chenglin Liu

研究方向: 多模态数学推理

该研究提出了一种名为MV-MATH的基准数据集,用于评估多模态大型语言模型在多视觉情境下的数学推理能力。数据集包含来自真实K-12场景的2009个高质量数学问题,每个问题都整合了多个图像和文本,并进行了详细的注释。通过实验,研究揭示了当前模型在多视觉数学任务中的挑战,并分析了不同模型的性能和错误模式。

ID: 2502.20808v1来源: arxiv发布时间: 2025-03-03

Multimodal Learning for Just-In-Time Software Defect Prediction in Autonomous Driving Systems

作者: Faisal Mohammad, Duksan Ryu

研究方向: 多模态学习在即时软件缺陷预测中的应用

本文提出了一种基于多模态学习的新方法,用于预测自动驾驶软件系统中的即时软件缺陷(JIT-SDP)。该方法利用预训练的Transformer架构处理软件系统数据集的多种数据模态,包括代码特征、变更指标和上下文信息。

ID: 2502.20806v1来源: arxiv发布时间: 2025-03-03

Characteristics Analysis of Autonomous Vehicle Pre-crash Scenarios

作者: Yixuan Li, Xuesong Wang, Tianyi Wang, Qian Liu

研究方向: 自动驾驶安全技术

该研究通过分析自动驾驶汽车(AV)的事故报告,利用最新的NHTSA预碰撞场景分类,自动提取预碰撞场景,并分析了关键场景的特征,以识别影响AV安全的关键因素。

ID: 2502.20789v1来源: arxiv发布时间: 2025-03-03

Flattening Supply Chains: When do Technology Improvements lead to Disintermediation?

作者: S. Nageeb Ali, Nicole Immorlica, Meena Jagadeesan, Brendan Lucier

研究方向: 数字经济发展与供应链中介

本文研究了在数字经济中,技术创新如何导致中介机构的消失。作者构建了一个包含中介机构、生产技术供应商和消费者的博弈模型,分析了生产技术改进对中介机构生存、社会福利和内容质量的影响。

ID: 2502.20783v1来源: arxiv发布时间: 2025-03-03

MedHallTune: An Instruction-Tuning Benchmark for Mitigating Medical Hallucination in Vision-Language Models

作者: Qiao Yan, Yuchen Yuan, Xiaowei Hu, Yihan Wang, Jiaqi Xu, Jinpeng Li, Chi-Wing Fu, Pheng-Ann Heng

研究方向: 医学领域视觉语言模型(VLMs)的幻觉问题研究

本文提出了一种名为MedHallTune的大规模基准数据集,旨在评估和缓解医学VLMs中的幻觉问题。MedHallTune包含超过10万张图像和100万条指令对,包括幻觉和非幻觉样本,每个样本都有真实标注。研究人员使用MedHallTune对现有的医学和通用VLMs进行了全面评估,并展示了通过在MedHallTune上进行微调,可以显著提高模型处理幻觉的能力,并提升其在下游视觉问答(VQA)任务上的零样本性能。

ID: 2502.20780v1来源: arxiv发布时间: 2025-03-03

Triple Phase Transitions: Understanding the Learning Dynamics of Large Language Models from a Neuroscience Perspective

作者: Yuko Nakagi, Keigo Tada, Sota Yoshino, Shinji Nishimoto, Yu Takagi

研究方向: 人工智能与神经科学交叉领域

本研究通过分析大型语言模型(LLMs)的学习动态,揭示了LLMs在训练过程中出现的三个阶段性的相变现象,并从神经科学的角度对这种现象进行了深入解释。

ID: 2502.20779v1来源: arxiv发布时间: 2025-03-03

Damper-B-PINN: Damper Characteristics-Based Bayesian Physics-Informed Neural Network for Vehicle State Estimation

作者: Tianyi Zeng, Tianyi Wang, Junfeng Jiao, Xinbo Chen

研究方向: 车辆状态估计与机器学习

本文提出了一种基于阻尼特性的贝叶斯物理信息神经网络(Damper-B-PINN),用于解决多输入多输出(MIMO)系统中车辆状态估计的挑战。该方法结合了物理信息、贝叶斯方法和阻尼特性,以提高估计的准确性和鲁棒性。

ID: 2502.20772v1来源: arxiv发布时间: 2025-03-03

Collective Reasoning Among LLMs A Framework for Answer Validation Without Ground Truth

作者: Seyed Pouyan Mousavi Davoudi, Alireza Shafiee Fard, Alireza Amiri-Margavi

研究方向: 大型语言模型(LLMs)在复杂概率推理任务中的协作和验证

本文研究多个LLMs在没有明确正确答案的情况下,如何通过协作生成和回答复杂的概率问题。该研究旨在探索模型间的共识如何增强回答的可靠性,并作为评估生成问题质量的替代方案。实验使用了GPT-4-0125-preview、Meta-LLaMA-3-70B-Instruct、Claude-3-Opus和Gemini-1.5-Flash等LLMs,并使用统计方法(如卡方检验、Fleiss' Kappa和置信区间分析)来量化共识和一致性。

ID: 2502.20758v1来源: arxiv发布时间: 2025-03-03