REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder

作者: Yitian Zhang, Long Mai, Aniruddha Mahapatra, David Bourgin, Yicong Hong, Jonah Casebeer, Feng Liu, Yun Fu

研究方向: 视频生成与压缩

本文提出了一种名为REGEN的框架,旨在通过改进视频嵌入技术来实现高效的视频生成与压缩。该方法利用了扩散模型和Transformer架构,以实现高压缩率下的高质量视频重建。

ID: 2503.08665v1来源: arxiv发布时间: 2025-03-13

MEAT: Multiview Diffusion Model for Human Generation on Megapixels with Mesh Attention

作者: Yuhan Wang, Fangzhou Hong, Shuai Yang, Liming Jiang, Wayne Wu, Chen Change Loy

研究方向: 计算机视觉与图形学

本文研究了如何利用多视图扩散模型在百万像素级别上生成人类图像,并提出了一种名为MEAT(Multiview Diffusion Model for Human Generation on Megapixels with Mesh Attention)的方法。该方法通过使用网格注意力机制,实现了在不同视角之间的高效特征融合,并解决了传统多视图注意力方法在高分辨率图像处理中的效率问题。

ID: 2503.08664v1来源: arxiv发布时间: 2025-03-12

Generating Robot Constitutions & Benchmarks for Semantic Safety

作者: Pierre Sermanet, Anirudha Majumdar, Alex Irpan, Dmitry Kalashnikov, Vikas Sindhwani

研究方向: 机器人语义安全与宪法AI

本文探讨了如何利用大型语言模型(LLM)和视觉语言模型(VLM)来提高机器人的语义安全性。通过构建ASIMOV基准数据集和机器人宪法,研究了如何自动生成机器人宪法,并评估其在提高机器人语义安全性方面的效果。

ID: 2503.08663v1来源: arxiv发布时间: 2025-03-12

Exploring the Word Sense Disambiguation Capabilities of Large Language Models

作者: Pierpaolo Basile, Lucia Siciliani, Elio Musacchio, Giovanni Semeraro

研究方向: 自然语言处理(NLP)中的词义消歧任务

该研究评估了大型语言模型(LLMs)在词义消歧(WSD)任务上的表现。研究人员扩展了现有的基准(XL-WSD)以设计两个适合LLMs的子任务:1)给定句子中的单词,LLM必须生成正确的定义;2)给定句子中的单词和一组预定义的意义,LLM必须选择正确的一个。

ID: 2503.08662v1来源: arxiv发布时间: 2025-03-12

Exploiting Instruction-Following Retrievers for Malicious Information Retrieval

作者: Parishad BehnamGhader, Nicholas Meade, Siva Reddy

研究方向: 信息检索与安全

该研究主要探讨了指令跟随检索器在恶意信息检索中的潜在风险。研究者通过实验发现,大多数检索器能够满足恶意查询,并可能选择相关的有害内容。此外,他们还发现,即使是安全对齐的LLM,在接收到有害检索到的段落时,也可能满足恶意请求。

ID: 2503.08644v1来源: arxiv发布时间: 2025-03-12

Rethinking Diffusion Model in High Dimension

作者: Zhenxin Zheng, Zhenjie Zheng

研究方向: 机器学习,高维数据生成,扩散模型

本文深入分析了高维扩散模型的工作原理,特别是目标函数和推理方法。通过对高维数据稀疏性对目标函数的影响进行分析,提出了一种新的推理框架,并展示了如何利用该框架设计更高效的推理方法。

ID: 2503.08643v1来源: arxiv发布时间: 2025-03-13

YuE: Scaling Open Foundation Models for Long-Form Music Generation

作者: Ruibin Yuan, Hanfeng Lin, Shuyue Guo, Ge Zhang, Jiahao Pan, Yongyi Zang, Haohe Liu, Yiming Liang, Wenye Ma, Xingjian Du, Xinrun Du, Zhen Ye, Tianyu Zheng, Yinghao Ma, Minghao Liu, Zeyue Tian, Ziya Zhou, Liumeng Xue, Xingwei Qu, Yizhi Li, Shangda Wu, Tianhao Shen, Ziyang Ma, Jun Zhan, Chunhui Wang, Yatian Wang, Xiaowei Chi, Xinyue Zhang, Zhenzhu Yang, Xiangzhou Wang, Shansong Liu, Lingrui Mei, Peng Li, Junjie Wang, Jianwei Yu, Guojian Pang, Xu Li, Zihao Wang, Xiaohuan Zhou, Lijun Yu, Emmanouil Benetos, Yong Chen, Chenghua Lin, Xie Chen, Gus Xia, Zhaoxiang Zhang, Chao Zhang, Wenhu Chen, Xinyu Zhou, Xipeng Qiu, Roger Dannenberg, Jiaheng Liu, Jian Yang, Wenhao Huang, Wei Xue, Xu Tan, Yike Guo

研究方向: 音乐生成与理解

YuE 是一个基于 LLaMA2 架构的开源基础模型系列,旨在解决长形式音乐生成问题,特别是歌词到歌曲的生成问题。通过创新的预训练和推理技术,YuE 能够生成高质量的、长达五分钟的音乐,同时保持歌词的连贯性、音乐结构的完整性和引人入胜的歌声。

ID: 2503.08638v1来源: arxiv发布时间: 2025-03-12

Vision Transformer for Intracranial Hemorrhage Classification in CT Scans Using an Entropy-Aware Fuzzy Integral Strategy for Adaptive Scan-Level Decision Fusion

作者: Mehdi Hosseini Chagahi, Niloufar Delfan, Behzad Moshiri, Md. Jalil Piran, Jaber Hatam Parikhan

研究方向: 医学图像分析、脑出血分类、深度学习

本文提出了一种基于金字塔视觉Transformer (PVT) 的模型,用于CT扫描中的脑出血分类。该模型结合了SHAP特征选择、模糊积分和熵感知决策融合策略,以提高分类准确性和可靠性。

ID: 2503.08609v1来源: arxiv发布时间: 2025-03-12

Tuning-Free Multi-Event Long Video Generation via Synchronized Coupled Sampling

作者: Subin Kim, Seoung Wug Oh, Jui-Hsien Wang, Joon-Young Lee, Jinwoo Shin

研究方向: 视频生成与编辑

本文提出了一种名为 SynCoS 的新型推理框架,用于基于文本的多事件长视频生成。该框架旨在解决现有方法在处理长视频生成时遇到的挑战,如内容漂移和语义一致性丧失。

ID: 2503.08605v1来源: arxiv发布时间: 2025-03-12

EMMOE: A Comprehensive Benchmark for Embodied Mobile Manipulation in Open Environments

作者: Dongping Li, Tielong Cai, Tianci Tang, Wenhao Chai, Katherine Rose Driggs-Campbell, Gaoang Wang

研究方向: 机器人学与自然语言处理

本文提出了一种名为EMMOE的基准,旨在评估在开放环境中进行的具有身体智能的移动操作。该基准要求机器人能够理解用户指令并在连续空间中执行长期任务。此外,文章还介绍了EMMOE-100数据集,该数据集包含各种日常任务,并提供了详细的任务注释和失败后的重新规划过程。文章还设计了一个名为HOMIEBOT的复杂代理系统,该系统集成了多种高级和低级模型,并具有多个错误检测和适应机制。

ID: 2503.08604v1来源: arxiv发布时间: 2025-03-12