Daily Papers

(Mis)Fitting: A Survey of Scaling Laws

作者: Margaret Li, Sneha Kudugunta, Luke Zettlemoyer

研究方向: 大规模语言模型（LLM）的缩放定律研究

本文调查了超过50篇关于缩放定律的论文，分析了不同形式、训练设置、评估和曲线拟合方法，并讨论了这些方法可能导致的不同结论。作者还讨论了关于可重复性方面的重要细节报告不足的问题，并提供了一份清单，以帮助研究人员更全面地报告缩放定律研究。

ID: 2502.18969v1•来源: arxiv•发布时间: 2025-02-27

DualSpec: Text-to-spatial-audio Generation via Dual-Spectrogram Guided Diffusion Model

作者: Lei Zhao, Sizhou Chen, Linfeng Feng, Xiao-Lei Zhang, Xuelong Li

研究方向: 文本到空间音频生成（Text-to-Spatial-Audio, TTSA）

该研究提出了一种名为DualSpec的文本到空间音频生成框架，旨在通过文本描述直接生成空间音频。该框架结合了变分自编码器（VAE）和扩散模型，并使用两种声学特征（Mel频谱图和短时傅里叶变换频谱图）来同时提高生成质量和方位精度。

ID: 2502.18952v1•来源: arxiv•发布时间: 2025-02-28

MathTutorBench: A Benchmark for Measuring Open-ended Pedagogical Capabilities of LLM Tutors

作者: Jakub Macina, Nico Daheim, Ido Hakimi, Manu Kapur, Iryna Gurevych, Mrinmaya Sachan

研究方向: 人工智能教育

本文提出了一种名为 MathTutorBench 的基准，用于评估基于大型语言模型 (LLM) 的数学辅导模型的开放式教学能力。该基准包含一系列数据集和指标，旨在全面评估辅导模型的能力，包括数学专业知识、学生理解能力和教师回应生成能力。

ID: 2502.18940v1•来源: arxiv•发布时间: 2025-02-27

JailBench: A Comprehensive Chinese Security Assessment Benchmark for Large Language Models

作者: Shuyi Liu, Simiao Cui, Haoran Bu, Yuming Shang, Xi Zhang

研究方向: 大型语言模型（LLMs）的安全评估与基准

本文提出了一种名为JailBench的综合中文安全评估基准，用于评估LLMs的深层安全漏洞。JailBench通过引入精细化的安全分类和自动数据扩展技术，以及结合jailbreak攻击和LLMs的自动提示生成框架，提高了评估的全面性和效率。

ID: 2502.18935v1•来源: arxiv•发布时间: 2025-02-27

SLAM in the Dark: Self-Supervised Learning of Pose, Depth and Loop-Closure from Thermal Images

作者: Yangfan Xu, Qu Hao, Lilian Zhang, Jun Mao, Xiaofeng He, Wenqi Wu, Changhao Chen

研究方向: 机器视觉与机器人导航

本文提出了一种名为DarkSLAM的深度学习基础单目热成像SLAM系统，旨在解决在复杂光照条件下进行大规模定位和重建的问题。

ID: 2502.18932v1•来源: arxiv•发布时间: 2025-02-27

Talking like Piping and Instrumentation Diagrams (P&IDs)

作者: Achmad Anggawirya Alimin, Dominik P. Goldstein, Lukas Schulze Balhorn, Artur M. Schweidtmann

研究方向: 过程工程与人工智能

本文提出了一种使用自然语言与管道和仪表图（P&IDs）进行通信的方法。该方法通过将P&IDs转换为DEXPI数据模型，并以标签属性图的形式表示，然后将其与大型语言模型（LLMs）集成。

ID: 2502.18928v1•来源: arxiv•发布时间: 2025-02-27

BeamVQ: Beam Search with Vector Quantization to Mitigate Data Scarcity in Physical Spatiotemporal Forecasting

作者: Weiyan Wang, Xingjian Shi, Ruiqi Shu, Yuan Gao, Rui Ray Chen, Kun Wang, Fan Xu, Jinbao Xue, Shuaipeng Li, Yangyu Tao, Di Wang, Hao Wu, Xiaomeng Huang

研究方向: 物理时空预测

BeamVQ是一种用于减轻物理时空预测中数据稀缺性的概率框架。它通过结合束搜索和向量量化（VQ）来提高模型在极端事件上的物理一致性和泛化能力。

ID: 2502.18925v1•来源: arxiv•发布时间: 2025-02-27

END: Early Noise Dropping for Efficient and Effective Context Denoising

作者: Hongye Jin, Pei Chen, Jingfeng Yang, Zhengyang Wang, Meng Jiang, Yifan Gao, Binxuan Huang, Xinyang Zhang, Zheng Li, Tianyi Liu, Huasheng Li, Bing Yin

研究方向: 自然语言处理

本文提出了一种名为“Early Noise Dropping”（END）的新方法，旨在提高大型语言模型（LLM）在处理噪声或无关上下文时的性能。该方法通过在LLM的早期层段中识别和移除噪声输入块，从而提高各种任务的表现。

ID: 2502.18915v1•来源: arxiv•发布时间: 2025-02-27

Dynamic Classification: Leveraging Self-Supervised Classification to Enhance Prediction Performance

作者: Ziyuan Zhong, Junyang Zhou

研究方向: 动态分类算法，预测准确性提升，自监督学习

提出了一种名为动态分类算法（DCA）的创新算法，旨在实现零漏检和最小化误报的目标。该算法通过将数据划分为N个等价的训练子集和N个预测子集，并使用监督模型进行独立预测，从而提高整体准确性。此外，该算法利用监督学习生成数据进一步优化预测结果，无需引入额外的模型即可过滤掉不符合准确度要求的预测。

ID: 2502.18891v1•来源: arxiv•发布时间: 2025-02-27

Clip-TTS: Contrastive Text-content and Mel-spectrogram, A High-Huality Text-to-Speech Method based on Contextual Semantic Understanding

作者: Tianyun Liu

研究方向: 语音合成与转换

本文提出了一种名为Clip-TTS的文本到语音合成方法，该方法基于Clip架构，通过对比学习将文本内容与梅尔频谱图联系起来，旨在提高语音合成的质量和效率。

ID: 2502.18889v1•来源: arxiv•发布时间: 2025-02-27