Evaluating and Designing Sparse Autoencoders by Approximating Quasi-Orthogonality

作者: Sewoong Lee, Adam Davies, Marc E. Canby, Julia Hockenmaier

研究方向: 稀疏自编码器(Sparse Autoencoders)在语言模型可解释性中的应用与设计

本文研究了稀疏自编码器(SAEs)在语言模型可解释性中的应用,提出了一种新的理论框架和方法,旨在解决现有SAEs中k参数选择缺乏理论依据的问题。该方法基于线性表示假设(LRH)和叠加假设(SH),通过近似特征激活(AFA)和ε-准正交性来评估和设计SAEs。

ID: 2503.24277v1来源: arxiv发布时间: 2025-04-02

Learning Velocity and Acceleration: Self-Supervised Motion Consistency for Pedestrian Trajectory Prediction

作者: Yizhou Huang, Yihua Cheng, Kezhi Wang

研究方向: 行人轨迹预测

本文提出了一种基于自监督运动一致性的行人轨迹预测框架,该框架能够显式地建模位置、速度和加速度,通过特征注入和自监督运动一致性机制来提高位置预测的准确性。

ID: 2503.24272v1来源: arxiv发布时间: 2025-04-03

Visual Acoustic Fields

作者: Yuelei Li, Hyunjin Kim, Fangneng Zhan, Ri-Zhao Qiu, Mazeyu Ji, Xiaojun Shan, Xueyan Zou, Paul Liang, Hanspeter Pfister, Xiaolong Wang

研究方向: 跨模态学习与3D场景音频生成与定位

本文提出了一种名为Visual Acoustic Fields的框架,用于在3D场景中整合视觉和听觉信号。该框架利用3D高斯分层(3DGS)来表示场景,并将其与冲击声音相关联。该框架实现了两个关键任务:基于视觉条件的音频生成和声音定位。

ID: 2503.24270v2来源: arxiv发布时间: 2025-04-02

FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics

作者: Yixuan Li, Yu Tian, Yipo Huang, Wei Lu, Shiqi Wang, Weisi Lin, Anderson Rocha

研究方向: AI图像生成检测与取证

本文提出了一种名为FakeScope的多模态专家模型,用于透明地检测AI生成的图像。该模型不仅能够高精度地识别AI合成的图像,还能提供丰富的、可解释的、基于查询的取证洞察。

ID: 2503.24267v1来源: arxiv发布时间: 2025-04-03

New Statistical Framework for Extreme Error Probability in High-Stakes Domains for Reliable Machine Learning

作者: Umberto Michelucci, Francesca Venturini

研究方向: 机器学习在高风险领域的可靠性评估

本文提出了一种新的统计框架,用于评估机器学习模型在极端错误概率下的可靠性。该框架基于极值理论(EVT),能够通过分析模型性能的尾部分布来估计最坏情况下的失败概率。

ID: 2503.24262v1来源: arxiv发布时间: 2025-04-02

MaintainCoder: Maintainable Code Generation Under Dynamic Requirements

作者: Zhengren Wang, Rui Ling, Chufan Wang, Yongan Yu, Zhiyu Li, Feiyu Xiong, Wentao Zhang

研究方向: 可维护的代码生成与软件工程

本文研究了在动态需求下提高代码可维护性的问题。作者提出了MaintainCoder,一个结合瀑布模型、设计模式和多智能体协作的代码生成框架,以及MaintainBench,一个评估代码可维护性的动态基准。

ID: 2503.24260v1来源: arxiv发布时间: 2025-04-03

Beyond a Single Mode: GAN Ensembles for Diverse Medical Data Generation

作者: Lorenzo Tronchin, Tommy Löfstedt, Paolo Soda, Valerio Guarrasi

研究方向: 医学图像生成与GAN集成

该研究旨在解决医学图像生成中GAN(生成对抗网络)面临的挑战,如模式崩溃和真实数据分布覆盖不足。通过使用GAN集成方法,该研究提出了一种选择最优GAN集合并针对医学数据生成的方法,以实现高保真度、多样性和高效性。

ID: 2503.24258v1来源: arxiv发布时间: 2025-04-02

Enhancing Large Language Models (LLMs) for Telecommunications using Knowledge Graphs and Retrieval-Augmented Generation

作者: Dun Yuan, Hao Zhou, Di Wu, Xue Liu, Hao Chen, Yan Xin, Jianzhong, Zhang

研究方向: 增强大型语言模型(LLM)在电信领域的应用

本文提出了一种结合知识图谱(KG)和检索增强生成(RAG)技术的框架,以提高LLM在电信领域的性能。该框架利用知识图谱捕获电信领域的信息,并通过RAG技术使LLM能够动态访问和利用最相关的知识。

ID: 2503.24245v1来源: arxiv发布时间: 2025-04-03

Spatio-temporal Prediction of Fine-Grained Origin-Destination Matrices with Applications in Ridesharing

作者: Run Yang, Runpeng Dai, Siran Gao, Xiaocheng Tang, Fan Zhou, Hongtu Zhu

研究方向: 交通预测与共享出行平台

本文研究了在共享出行平台中,如何对细粒度的起止点矩阵进行时空预测,以优化政策设计和资源分配。针对数据稀疏、空间复杂度高和语义地理依赖性等问题,提出了一种名为OD-CED的新型预测模型。

ID: 2503.24237v1来源: arxiv发布时间: 2025-04-02

What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models

作者: Qiyuan Zhang, Fuyuan Lyu, Zexu Sun, Lei Wang, Weixu Zhang, Zhihan Guo, Yufei Wang, Irwin King, Xue Liu, Chen Ma

研究方向: 大型语言模型推理时缩放(TTS)

本文提出了一种针对大型语言模型(LLMs)推理时缩放(TTS)的统一、多维框架,该框架从四个核心维度进行结构化分析:要缩放什么(What to Scale)、如何缩放(How to Scale)、在哪里缩放(Where to Scale)以及缩放效果如何(How Well to Scale)。通过对现有方法、应用场景和评估方面的广泛审查,本文提供了对TTS领域的系统理解,并强调了各种技术在整个TTS环境中的独特功能角色。

ID: 2503.24235v1来源: arxiv发布时间: 2025-04-02