Enhancing Time Series Forecasting via Logic-Inspired Regularization

作者: Jianqi Zhang, Jingyao Wang, Xingchen Shen, Wenwen Qiang

研究方向: 时间序列预测(TSF)与逻辑推理的结合

本文研究了如何通过逻辑推理来增强时间序列预测(TSF)的性能。针对现有基于Transformer的TSF方法在处理不同预测场景时,对token依赖的有效性差异忽略的问题,本文从逻辑角度出发,提出了Attention Logic Regularization(Attn-L-Reg)方法,旨在通过引导模型学习有效的token依赖,从而提高预测性能。

ID: 2503.06867v1来源: arxiv发布时间: 2025-03-11

Graphormer-Guided Task Planning: Beyond Static Rules with LLM Safety Perception

作者: Wanjing Huang, Tongjie Pan, Yalan Ye

研究方向: 机器人任务规划与安全感知

本文提出了一种基于Graphormer的风险感知任务规划框架,该框架结合了LLM的决策能力和结构化安全建模,旨在解决现有机器人任务规划方法在安全感知和适应性方面的不足。

ID: 2503.06866v1来源: arxiv发布时间: 2025-03-11

Enhanced Multi-Tuple Extraction for Alloys: Integrating Pointer Networks and Augmented Attention

作者: Mengzhe Hei, Zhouran Zhang, Qingbao Liu, Yan Pan, Xiang Zhao, Yongqian Peng, Yicong Ye, Xin Zhang, Shuxin Bai

研究方向: AI for materials

本文针对科学文献中多组元提取的挑战,提出了一种结合指针网络和增强注意力机制的新型框架,以提高从多主元素合金中提取机械性能信息的准确性。

ID: 2503.06861v1来源: arxiv发布时间: 2025-03-11

AttFC: Attention Fully-Connected Layer for Large-Scale Face Recognition with One GPU

作者: Zhuowen Zheng, Yain-Whar Si, Xiaochen Yuan, Junwei Duan, Ke Wang, Xiaofan Li, Xinyuan Zhang, Xueyuan Gong

研究方向: 人脸识别,深度学习,注意力机制

针对大规模人脸识别数据集训练时FC层参数过多导致的计算资源消耗大、训练困难等问题,提出了一种新的注意力全连接层(AttFC),通过注意力机制动态生成和存储类别中心,减少参数量,降低计算资源需求。

ID: 2503.06839v1来源: arxiv发布时间: 2025-03-11

Towards a Multimodal MRI-Based Foundation Model for Multi-Level Feature Exploration in Segmentation, Molecular Subtyping, and Grading of Glioma

作者: Somayeh Farahani, Marjaneh Hejazi, Antonio Di Ieva, Emad Fatemizadeh, Sidong Liu

研究方向: 医学影像分析与脑肿瘤诊断

提出了一种名为MTS-UNET的多任务学习模型,用于脑肿瘤的分割、分子亚型和病理分级。该模型基于预训练的SWIN-UNETR架构,并结合了肿瘤感知特征编码(TAFE)和跨模态差异(CMD)模块,以提高模型的性能和可解释性。

ID: 2503.06828v1来源: arxiv发布时间: 2025-03-11

Towards Fine-Grained Video Question Answering

作者: Wei Dai, Alan Luo, Zane Durante, Debadutta Dash, Arnold Milstein, Kevin Schulman, Ehsan Adeli, Li Fei-Fei

研究方向: 视频问答(Video Question Answering, VideoQA)

本文提出了一种名为MOMA-QA的视频问答数据集,旨在解决现有视频问答数据集在时空粒度、空间关系推理和实体中心查询方面的不足。同时,提出了一个名为SGVLM的视频语言模型,该模型结合了场景图预测器、高效的帧检索器和预训练的大型语言模型,以实现细粒度的视频理解。

ID: 2503.06820v1来源: arxiv发布时间: 2025-03-11

Semi-Supervised Medical Image Segmentation via Knowledge Mining from Large Models

作者: Yuchen Mao, Hongwei Li, Yinyi Lai, Giorgos Papanastasiou, Peng Qi, Yunjie Yang, Chengjia Wang

研究方向: 医学图像分割、半监督学习、知识挖掘、大模型与小模型交互

该研究提出了一种通过知识挖掘从大型模型(如SAM)中获取知识来提升小型、本地部署的深度学习模型(如U-Net++)在医学图像分割任务上的性能的方法。该方法利用了SAM的广泛视觉知识,通过将SAM在未标记图像上的输出转换为提示信息,来扩展U-Net++模型的能力,并迭代地改进SAM的预测,以适应特定的医学分割任务。

ID: 2503.06816v1来源: arxiv发布时间: 2025-03-11

Unlocking Generalization for Robotics via Modularity and Scale

作者: Murtaza Dalal

研究方向: 机器人学习,机器人控制,模拟与现实

本文探讨了如何构建能够泛化的机器人系统,重点关注将模块化与大规模学习相结合以实现通用机器人控制。

ID: 2503.06814v1来源: arxiv发布时间: 2025-03-11

Can Proof Assistants Verify Multi-Agent Systems?

作者: Julian Alfredo Mendez, Timotheus Kampik

研究方向: 多智能体系统(MAS)的工程与形式化验证

本文研究了如何使用Soda语言来验证多智能体系统。Soda是一种支持函数式和面向对象编程的语言,可以编译为Scala(主流编程语言)和Lean(形式化验证工具)。通过这种方式,Soda可以用于实现MAS,并支持与主流软件生态系统的集成以及使用Lean进行形式化验证。

ID: 2503.06812v1来源: arxiv发布时间: 2025-03-11

Mitigating Preference Hacking in Policy Optimization with Pessimism

作者: Dhawal Gupta, Adam Fisch, Christoph Dann, Alekh Agarwal

研究方向: 强化学习与人类反馈(RLHF)

本文针对强化学习从人类反馈(RLHF)中存在的过度优化问题,提出了一种基于悲观主义的策略优化方法,以解决由于偏好数据有限导致的过度优化现象。

ID: 2503.06810v1来源: arxiv发布时间: 2025-03-11