Daily Papers

Composite Indicator-Guided Infilling Sampling for Expensive Multi-Objective Optimization

作者: Huixiang Zhen, Xiaotong Li, Wenyin Gong, Ling Wang, Xiangyun Hu

研究方向: 昂贵多目标优化

提出了一种基于复合指标引导的填充采样方法，用于解决昂贵多目标优化问题。该方法通过构建一个综合指标，同时考虑收敛性、多样性和分布性，以提高候选解选择的效率。

ID: 2503.22224v1•来源: arxiv•发布时间: 2025-04-02

Saving Storage Space Using Files on the Web

作者: Kevin Saric, Gowri Sankar Ramachandran, Raja Jurdak, Surya Nepal

研究方向: 数据存储管理

该研究旨在通过分析用户存储系统中最大的文件，并检查这些文件是否可以在网络上恢复，从而实现存储空间的优化管理。研究人员通过调查用户的文件系统，并分析其元数据，提出了一个自动化的文件删除方法，该方法利用网络存储资源来节省本地存储空间。

ID: 2503.22089v1•来源: arxiv•发布时间: 2025-04-02

A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1

作者: Zhaoyi Li, Xiaohan Zhao, Dong-Dong Wu, Jiacheng Cui, Zhiqiang Shen

研究方向: 人工智能，视觉语言模型，对抗攻击

本文研究了针对视觉语言模型（LVLMs）的对抗攻击，特别是针对商业黑盒LVLMs的攻击。作者提出了一种名为M-Attack的新方法，该方法通过在局部区域编码语义细节并集中修改语义丰富的区域来提高攻击的有效性。

ID: 2503.10635v1•来源: arxiv•发布时间: 2025-03-15

Uncertainty in Action: Confidence Elicitation in Embodied Agents

作者: Tianjiao Yu, Vedant Shah, Muntasir Wahed, Kiet A. Nguyen, Adheesh Juvekar, Tal August, Ismini Lourentzou

研究方向: 机器学习，人工智能，不确定性量化

该研究旨在解决在动态多模态环境中，具身智能体表达不确定性的挑战。研究人员提出了一个框架，通过引入检索策略和执行策略来增强具身智能体的置信度估计。

ID: 2503.10628v1•来源: arxiv•发布时间: 2025-03-15

SciVerse: Unveiling the Knowledge Comprehension and Visual Reasoning of LMMs on Multi-modal Scientific Problems

作者: Ziyu Guo, Ray Zhang, Hao Chen, Jialin Gao, Dongzhi Jiang, Jiaze Wang, Pheng-Ann Heng

研究方向: 多模态大型语言模型在科学问题解决中的应用与评估

本文介绍了SCIVERSE，一个用于评估大型多模态模型（LMMs）在多模态科学问题解决中知识理解、多模态内容解释和思维链推理能力的新基准。通过将问题转换为不同版本，包括不同知识水平和视觉信息含量，研究者评估了LMMs在科学领域中的专业知识和视觉感知技能。

ID: 2503.10627v1•来源: arxiv•发布时间: 2025-03-15

NIL: No-data Imitation Learning by Leveraging Pre-trained Video Diffusion Models

作者: Mert Albaba, Chenhao Li, Markos Diomataris, Omid Taheri, Andreas Krause, Michael Black

研究方向: 机器人学习与模拟，生成模型与强化学习交叉领域

该论文提出了一种名为“无数据模仿学习”（NIL）的方法，通过利用预训练的视频扩散模型生成2D视频，从而学习3D运动技能，实现无需数据收集的技能获取。

ID: 2503.10626v1•来源: arxiv•发布时间: 2025-03-15

LHM: Large Animatable Human Reconstruction Model from a Single Image in Seconds

作者: Lingteng Qiu, Xiaodong Gu, Peihao Li, Qi Zuo, Weichao Shen, Junfei Zhang, Kejie Qiu, Weihao Yuan, Guanying Chen, Zilong Dong, Liefeng Bo

研究方向: 计算机视觉、3D建模、动画生成

该论文提出了一种名为LHM（Large Animatable Human Reconstruction Model）的大规模可动人像重建模型，能够从单张图像中快速生成逼真的3D可动人像。

ID: 2503.10625v1•来源: arxiv•发布时间: 2025-03-15

ETCH: Generalizing Body Fitting to Clothed Humans via Equivariant Tightness

作者: Boqian Li, Haiwen Feng, Zeyu Cai, Michael J. Black, Yuliang Xiu

研究方向: 计算机视觉与3D人体建模

该研究提出了一种名为ETCH的新方法，用于将3D服装人体点云与人体内部形状进行配准。ETCH通过局部近似SE(3)等变性和紧度向量来估计服装到身体的表面映射，从而实现对人体形状的精确拟合。

ID: 2503.10624v1•来源: arxiv•发布时间: 2025-03-15

Transformers without Normalization

作者: Jiachen Zhu, Xinlei Chen, Kaiming He, Yann LeCun, Zhuang Liu

研究方向: 深度学习，神经网络优化，Transformer架构

本文研究了在Transformer架构中替代传统归一化层的方法，提出了一种名为Dynamic Tanh (DyT)的新操作，用于在不需要计算激活统计数据的情况下模拟归一化层的功能。

ID: 2503.10622v1•来源: arxiv•发布时间: 2025-03-15

Siege: Autonomous Multi-Turn Jailbreaking of Large Language Models with Tree Search

作者: Andy Zhou

研究方向: 大型语言模型（LLM）的安全性与对抗攻击

该论文提出了一种名为Siege的多轮对抗攻击框架，用于模拟和评估大型语言模型在多轮对话中安全性逐渐退化的过程。通过树搜索的方法，该框架能够有效地发现模型的安全漏洞，并揭示了模型在多轮对话中的部分合规性累积如何导致最终输出非法内容。

ID: 2503.10619v1•来源: arxiv•发布时间: 2025-03-15