PixelCAM: Pixel Class Activation Mapping for Histology Image Classification and ROI Localization

作者: Alexis Guichemerre, Soufiane Belharbi, Mohammadhadi Shateri, Luke McCaffrey, Eric Granger

研究方向: 弱监督目标定位(WSOL)和病理图像分析

PixelCAM是一种用于病理图像分类和ROI定位的WSOL方法。它通过在图像编码器的像素特征空间中同时训练分类和定位任务来解决异步收敛问题。PixelCAM使用部分交叉熵,通过从预训练的WSOL模型中收集的像素伪标签进行训练,并将其集成到CNN和Transformer架构中,而无需任何修改。

ID: 2503.24135v1来源: arxiv发布时间: 2025-04-03

Graph Neural Network-Based Predictive Modeling for Robotic Plaster Printing

作者: Diego Machain Rivera, Selen Ercan Jenny, Ping Hsun Tsai, Ena Lloret-Fritschi, Luis Salamanca, Fernando Perez-Cruz, Konstantinos E. Tatsis

研究方向: 建筑机器人打印与数据驱动预测模型

该研究提出了一种基于图神经网络(GNN)的建模方法,用于预测基于颗粒的制造过程中产生的表面。该方法使用机器人臂轨迹特征(如位置、速度和方向)以及打印过程参数来计算预测。该模型采用粒子表示墙域和末端执行器,允许采用基于图的解决方案。GNN模型由编码器-处理器-解码器架构组成,并使用实验室测试数据进行训练,同时通过贝叶斯方案优化超参数。

ID: 2503.24130v1来源: arxiv发布时间: 2025-04-02

It's a (Blind) Match! Towards Vision-Language Correspondence without Parallel Data

作者: Dominik Schnaus, Nikita Araslanov, Daniel Cremers

研究方向: 计算机视觉与自然语言处理

该研究旨在探索在没有并行数据的情况下,如何实现视觉与语言表示的匹配,即所谓的“盲匹配”。通过分析现有视觉和语言基础模型,研究提出了基于二次分配问题的无监督匹配方法,并引入了一种新的启发式算法来提高匹配的准确性。

ID: 2503.24129v1来源: arxiv发布时间: 2025-04-03

IMPACT: A Generic Semantic Loss for Multimodal Medical Image Registration

作者: Valentin Boussot, Cédric Hémon, Jean-Claude Nunes, Jason Downling, Simon Rouzé, Caroline Lafond, Anaïs Barateau, Jean-Louis Dillenseger

研究方向: 医学图像处理与注册

本研究提出了一种名为IMPACT的通用语义相似度度量,用于多模态医学图像配准。该方法利用预训练的分割模型提取语义特征,以实现无需特定任务训练的通用配准。

ID: 2503.24121v1来源: arxiv发布时间: 2025-04-03

Multi-Task Learning for Extracting Menstrual Characteristics from Clinical Notes

作者: Anna Shopova, Cristoph Lippert, Leslee J. Shaw, Eugenia Alleva

研究方向: 自然语言处理(NLP)在医疗健康领域的应用

该研究旨在开发一种自然语言处理(NLP)管道,从临床笔记中提取关键月经周期属性,如痛经、规律性、流量和经间出血。

ID: 2503.24116v1来源: arxiv发布时间: 2025-04-03

TeleAntiFraud-28k: An Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection

作者: Zhiming Ma, Peidong Wang, Minhua Huang, Jingpeng Wang, Kai Wu, Xiangzhao Lv, Yachun Pang, Yin Yang, Wenjie Tang, Yuchen Kang

研究方向: 电信欺诈检测与防欺诈系统

本文提出并构建了TeleAntiFraud-28k,这是一个专门为电信欺诈检测设计的开源音频-文本慢思考数据集。该数据集通过三种策略构建:隐私保护文本真实样本生成、语义增强和基于多代理对抗合成的模拟欺诈策略。数据集包含28,511个经过严格处理的语音-文本对,并分为场景分类、欺诈检测和欺诈类型分类三个任务。此外,还构建了TeleAntiFraud-Bench评估基准,用于评估模型在电信欺诈检测任务中的性能。

ID: 2503.24115v3来源: arxiv发布时间: 2025-04-03

Grounding Agent Reasoning in Image Schemas: A Neurosymbolic Approach to Embodied Cognition

作者: François Olivier, Zied Bouraoui

研究方向: 认知科学、人工智能、神经符号学、具身认知

本文提出了一种将具身认知理论与智能体系统相结合的新框架,通过利用图像模式的形式化描述来构建一个神经符号系统,从而将智能体的理解建立在基本概念结构之上。该框架旨在解决当前智能体推理系统在捕捉人类理解和交互环境的基本概念结构方面的不足。

ID: 2503.24110v1来源: arxiv发布时间: 2025-04-02

PolypSegTrack: Unified Foundation Model for Colonoscopy Video Analysis

作者: Anwesa Choudhuri, Zhongpai Gao, Meng Zheng, Benjamin Planche, Terrence Chen, Ziyan Wu

研究方向: 医学影像分析,结肠镜视频分析,深度学习

提出了一种名为PolypSegTrack的新型基础模型,用于结肠镜视频中息肉的检测、分割、分类和无监督跟踪。

ID: 2503.24108v1来源: arxiv发布时间: 2025-04-02

Is LLM the Silver Bullet to Low-Resource Languages Machine Translation?

作者: Yewei Song, Lujun Li, Cedric Lothritz, Saad Ezzini, Lama Sleem, Niccolo Gentile, Radu State, Tegawendé F. Bissyandé, Jacques Klein

研究方向: 低资源语言机器翻译和大型语言模型

该研究旨在评估大型语言模型(LLMs)在低资源语言机器翻译中的应用效果,并探索改进低资源语言翻译的方法。

ID: 2503.24102v1来源: arxiv发布时间: 2025-04-03

4D mmWave Radar in Adverse Environments for Autonomous Driving: A Survey

作者: Xiangyuan Peng, Miao Tang, Huawei Sun, Lorenzo Servadei, Robert Wille

研究方向: 4D毫米波雷达在恶劣环境下的自动驾驶感知

本文综述了4D毫米波雷达在恶劣环境下的自动驾驶感知研究,包括数据集、方法和挑战。重点分析了雨、雪、雾和烟雾等恶劣环境对4D毫米波雷达性能的影响,并探讨了提高其鲁棒性的方法。

ID: 2503.24091v1来源: arxiv发布时间: 2025-04-03