Prediction of Frozen Region Growth in Kidney Cryoablation Intervention Using a 3D Flow-Matching Model

作者: Siyeop Yoon, Yujin Oh, Matthew Tivnan, Sifan Song, Pengfei Jin, Sekeun KimHyun Jin Cho, Dufan Wu, Raul Uppot, Quanzheng Li

研究方向: 医学图像分析、肾脏冷冻消融手术、3D流匹配模型

本文提出了一种基于3D流匹配模型的肾脏冷冻消融术中冰球生长预测方法,通过结合术中CT成像和深度学习技术,实现对冰球生长的精确预测,为术中指导提供支持。

ID: 2503.04966v1来源: arxiv发布时间: 2025-03-10

L$^2$M: Mutual Information Scaling Law for Long-Context Language Modeling

作者: Zhuo Chen, Oriol Mayné i Comas, Zhuotao Jin, Di Luo, Marin Soljačić

研究方向: 自然语言处理,语言模型,信息论

本文研究了长上下文语言模型中的长距离依赖关系,提出了一种基于二分互信息缩放定律的理论框架,并提出了长上下文语言模型条件(L[2]M条件),用于指导长上下文语言模型的设计和发展。

ID: 2503.04725v1来源: arxiv发布时间: 2025-03-07

Shifting Long-Context LLMs Research from Input to Output

作者: Yuhao Wu, Yushi Bai, Zhiqing Hu, Shangqing Tu, Ming Shan Hee, Juanzi Li, Roy Ka-Wei Lee

研究方向: 长输出大型语言模型(Long-Output LLMs)研究

本文探讨了长输出大型语言模型(Long-Output LLMs)的重要性,并分析了当前研究现状、挑战和机遇。文章指出,尽管长输入大型语言模型(Long-Context LLMs)的研究取得了显著进展,但长输出生成方面的研究相对较少。长输出模型在生成长文本、支持复杂推理和创意写作等方面具有巨大潜力。

ID: 2503.04723v2来源: arxiv发布时间: 2025-03-10

Shifting Long-Context LLMs Research from Input to Output

作者: Yuhao Wu, Yushi Bai, Zhiqing Hu, Shangqing Tu, Ming Shan Hee, Juanzi Li, Roy Ka-Wei Lee

研究方向: 长输出大型语言模型(Long-Output LLMs)研究

该论文主要探讨了长输出大型语言模型(LLMs)的研究方向,指出当前LLMs在处理长输入文本方面取得了显著进展,但在生成长输出文本方面却存在不足。论文强调了长输出文本生成的重要性,并提出了长输出LLMs的概念,分析了其面临的挑战和机遇。

ID: 2503.04723v1来源: arxiv发布时间: 2025-03-07

Enough Coin Flips Can Make LLMs Act Bayesian

作者: Ritwik Gupta, Rodolfo Corona, Jiaxin Ge, Eric Wang, Dan Klein, Trevor Darrell, David M. Chan

研究方向: 人工智能,自然语言处理,机器学习

本文研究了大型语言模型(LLMs)在执行上下文学习(ICL)时,如何适应简单的随机过程(如偏置的硬币翻转)。通过在控制环境中剥离复杂的变量,作者探究了预训练模型如何构建和更新其先验概率。

ID: 2503.04722v1来源: arxiv发布时间: 2025-03-08

Predictable Scale: Part I -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining

作者: Houyi Li, Wenzheng Zheng, Jingcheng Hu, Qiufeng Wang, Hanshan Zhang, Zili Wang, Yangshijie Xu, Shuigeng Zhou, Xiangyu Zhang, Daxin Jiang

研究方向: 大型语言模型(LLM)预训练中的超参数优化

该研究旨在通过实证研究,发现并验证LLM预训练中学习率和批处理大小的通用缩放定律。这些定律能够帮助优化超参数,提高LLM的性能。

ID: 2503.04715v1来源: arxiv发布时间: 2025-03-07

Scaling Rich Style-Prompted Text-to-Speech Datasets

作者: Anuj Diwan, Zhisheng Zheng, David Harwath, Eunsol Choi

研究方向: 语音合成与语音风格控制

该研究旨在通过创建一个大规模的语音风格标注数据集(ParaSpeechCaps),来提升语音风格化文本到语音合成(TTS)模型的表现。该数据集包含丰富的风格标签,并提出了两种自动标注方法以扩大数据规模。

ID: 2503.04713v1来源: arxiv发布时间: 2025-03-07

Self-Supervised Models for Phoneme Recognition: Applications in Children's Speech for Reading Learning

作者: Lucas Block Medin, Thomas Pellegrini, Lucile Gelin

研究方向: 儿童语音识别与阅读学习

本文研究了使用自监督学习模型进行儿童语音的音素识别,并应用于阅读学习。研究者比较了wav2vec 2.0、HuBERT和WavLM模型在法国儿童语音识别任务上的表现,并进一步优化了WavLM模型,提高了其在阅读任务和噪声环境下的鲁棒性。

ID: 2503.04710v1来源: arxiv发布时间: 2025-03-08

Universality of Layer-Level Entropy-Weighted Quantization Beyond Model Architecture and Size

作者: Alireza Behtash, Marijan Fofonjka, Ethan Baird, Tyler Mauer, Hossein Moghimifam, David Stout, Joel Dennison

研究方向: 深度学习模型压缩与优化

该论文提出了一种名为 Entropy-Weighted Quantization (EWQ) 的新型模型量化方法,旨在解决大型语言模型 (LLM) 的部署难题。EWQ 通过分析变压器块中的熵分布,确定哪些块可以安全地进行量化,而不会造成显著的性能下降。该方法超越了架构特定的压缩方法,适用于不同规模的模型。

ID: 2503.04704v2来源: arxiv发布时间: 2025-03-10

Universality of Layer-Level Entropy-Weighted Quantization Beyond Model Architecture and Size

作者: Alireza Behtash, Marijan Fofonjka, Ethan Baird, Tyler Mauer, Hossein Moghimifam, David Stout, Joel Dennison

研究方向: 机器学习,特别是大型语言模型(LLM)的压缩和部署

提出了一种名为“熵加权量化(EWQ)”的新方法,用于LLM的层级别选择性量化。该方法通过分析Transformer块中的熵分布,确定哪些块可以安全地量化而不会造成性能显著下降,独立于模型架构或大小。实验结果表明,EWQ在多种架构(从1.6B到70B参数)中均表现出色,同时减少了内存使用并提高了推理速度。

ID: 2503.04704v1来源: arxiv发布时间: 2025-03-07