HumanDreamer: Generating Controllable Human-Motion Videos via Decoupled Generation

作者: Boyuan Wang, Xiaofeng Wang, Chaojun Ni, Guosheng Zhao, Zhiqin Yang, Zheng Zhu, Muyang Zhang, Yukun Zhou, Xinze Chen, Guan Huang, Lihong Liu, Xingang Wang

研究方向: 计算机视觉与人工智能

该研究提出了一种名为HumanDreamer的框架,用于通过文本描述生成可控的人类运动视频。该框架首先根据文本提示生成多样化的姿态,然后利用这些姿态生成人类运动视频。

ID: 2503.24026v2来源: arxiv发布时间: 2025-04-03

Crossmodal Knowledge Distillation with WordNet-Relaxed Text Embeddings for Robust Image Classification

作者: Chenqi Guo, Mengshuo Rong, Qianli Feng, Rongfan Feng, Yinglong Ma

研究方向: 跨模态知识蒸馏与图像分类

本文提出了一种基于WordNet松弛文本嵌入的多教师跨模态知识蒸馏框架,用于提高图像分类的鲁棒性。该框架结合了CLIP图像嵌入和可学习的WordNet松弛文本嵌入,通过避免直接使用精确的类别名称,而是使用语义丰富的WordNet扩展来缓解标签泄漏,并引入更多样化的文本提示。

ID: 2503.24017v1来源: arxiv发布时间: 2025-04-03

Bayesian Predictive Coding

作者: Alexander Tschantz, Magnus Koudahl, Hampus Linander, Lancelot Da Costa, Conor Heins, Jeff Beck, Christopher Buckley

研究方向: 神经科学和机器学习

本文提出了一种名为贝叶斯预测编码(BPC)的算法,该算法扩展了预测编码(PC)框架,通过引入贝叶斯后验分布来估计模型参数,旨在实现生物启发式的贝叶斯学习以及深度学习中的不确定性量化。

ID: 2503.24016v1来源: arxiv发布时间: 2025-04-02

You Cannot Feed Two Birds with One Score: the Accuracy-Naturalness Tradeoff in Translation

作者: Gergely Flamich, David Vilar, Jan-Thorsten Peter, Markus Freitag

研究方向: 机器翻译评估与优化

本文探讨了机器翻译中的准确性与自然性之间的权衡问题。作者指出,现有的评估方法通常使用单一指标来衡量翻译质量,但这种方法无法全面反映系统的性能。因此,作者提出了一个基于信息理论的框架,并通过实证研究证明了准确性和自然性之间存在权衡。

ID: 2503.24013v2来源: arxiv发布时间: 2025-04-03

Learning 3D-Gaussian Simulators from RGB Videos

作者: Mikel Zhobro, Andreas René Geist, Georg Martius

研究方向: 计算机视觉与机器人学

该研究提出了一种名为3DGSim的3D物理模拟器,可以从多视角RGB视频中学习物体动力学。该模型通过将图像编码为3D高斯粒子表示,利用Transformer进行动力学传播,并通过3D高斯喷射进行渲染,实现了对物体运动和场景的逼真模拟。

ID: 2503.24009v1来源: arxiv发布时间: 2025-04-02

H2VU-Benchmark: A Comprehensive Benchmark for Hierarchical Holistic Video Understanding

作者: Qi Wu, Quanlong Zheng, Yanhao Zhang, Junlin Xie, Jinguo Luo, Kuo Wang, Peng Liu, Qingsong Xie, Ru Zhen, Haonan Lu, Zhenyu Yang

研究方向: 视频理解与多模态大语言模型

本文提出了一种名为H²VU-Benchmark的视频理解基准,旨在全面评估多模态大语言模型(MLLMs)的视频理解能力。该基准涵盖了从短视频到长视频的广泛视频时长,引入了反常识理解和轨迹状态跟踪等评估任务,并扩展了第一人称流媒体视频数据集。

ID: 2503.24008v1来源: arxiv发布时间: 2025-04-02

CITRAS: Covariate-Informed Transformer for Time Series Forecasting

作者: Yosuke Yamaguchi, Issei Suemitsu, Wenpeng Wei

研究方向: 时间序列预测,尤其是考虑协变量的时间序列预测

提出了一种名为CITRAS的基于Transformer的时间序列预测模型,该模型能够有效地利用多个目标变量和协变量,包括过去和未来的信息,以改善预测精度。

ID: 2503.24007v1来源: arxiv发布时间: 2025-04-02

Comparing representations of long clinical texts for the task of patient note-identification

作者: Safa Alsaidi, Marc Vincent, Olivia Boyer, Nicolas Garcelon, Miguel Couceiro, Adrien Coulet

研究方向: 医学信息学,自然语言处理

本文研究如何利用自然语言处理技术识别患者笔记,从而实现患者笔记的准确匹配。研究者比较了多种嵌入方法,包括HAN、HTN、LongFormer和BERT,并评估了不同的池化策略,以确定哪种方法最适用于处理中长临床文本。

ID: 2503.24006v1来源: arxiv发布时间: 2025-04-03

Rethinking Key-Value Cache Compression Techniques for Large Language Model Serving

作者: Wei Gao, Xinyu Zhou, Peng Sun, Tianwei Zhang, Yonggang Wen

研究方向: LLM服务中的键值缓存压缩技术

本文研究如何通过键值缓存压缩技术优化大型语言模型(LLM)的服务,主要关注如何减少内存消耗和计算成本,同时保持模型准确性。

ID: 2503.24000v1来源: arxiv发布时间: 2025-04-02

DenseFormer: Learning Dense Depth Map from Sparse Depth and Image via Conditional Diffusion Model

作者: Ming Yuan, Sichao Wang, Chuang Zhang, Lei He, Qing Xu, Jianqiang Wang

研究方向: 自动驾驶、深度学习、计算机视觉

该论文提出了DenseFormer,一种基于条件扩散模型的深度补全方法,用于从稀疏深度图和RGB图像生成密集深度图。DenseFormer通过迭代地细化初始随机深度分布来生成密集深度图,同时利用特征金字塔结构和多层可变形注意力机制提取和集成来自稀疏深度图和RGB图像的特征。

ID: 2503.23993v1来源: arxiv发布时间: 2025-04-02