Online Language Splatting

作者: Saimouli Katragadda, Cho-Ying Wu, Yuliang Guo, Xinyu Huang, Guoquan Huang, Liu Ren

研究方向: 计算机视觉与机器人

该研究提出了一种名为“在线语言喷溅”的框架,该框架能够通过在线方式将语言信息与3D场景表示进行映射,从而实现AI在3D环境中的自然语言交互。该框架利用3D高斯喷溅技术,结合实时高分辨率CLIP嵌入、开放词汇特征压缩和颜色-语言解耦优化策略,实现了高效、准确的在线语言映射。

ID: 2503.09447v1来源: arxiv发布时间: 2025-03-14

Sparse Autoencoder as a Zero-Shot Classifier for Concept Erasing in Text-to-Image Diffusion Models

作者: Zhihua Tian, Sirun Nan, Ming Xu, Shengfang Zhai, Wenjie Qu, Jian Liu, Kui Ren, Ruoxi Jia, Jiaheng Zhang

研究方向: 文本到图像(T2I)扩散模型与概念擦除

该研究提出了一种名为“解释然后停用”(ItD)的新型框架,用于在T2I扩散模型中实现精确的概念擦除,同时保持整体性能。ItD利用稀疏自动编码器(SAE)将每个概念解释为多个特征的组合,并通过停用与目标概念相关的特定特征来将SAE用作零样本分类器,从而实现扩散模型中的选择性概念擦除。

ID: 2503.09446v1来源: arxiv发布时间: 2025-03-14

Astrea: A MOE-based Visual Understanding Model with Progressive Alignment

作者: Xiaoda Yang, JunYu Lu, Hongshun Qiu, Sijing Li, Hao Li, Shengpeng Ji, Xudong Tang, Jiayang Xu, Jiaqi Duan, Ziyue Jiang, Cong Lin, Sihang Cai, Zejian Xie, Zhuoyang Song, Songxin Zhang

研究方向: 多模态理解与视觉语言模型

本文提出了一种名为Astrea的基于MoE架构的视觉语言模型,旨在解决多任务异质性和模型泛化能力之间的平衡问题。Astrea通过引入渐进式预对齐策略、异构专家协作机制和动态知识融合策略,实现了视觉和语言信息的有效整合。

ID: 2503.09445v1来源: arxiv发布时间: 2025-03-14

PromptMap: An Alternative Interaction Style for AI-Based Image Generation

作者: Krzysztof Adamkiewicz, Paweł W. Woźniak, Julia Dominiak, Andrzej Romanowski, Jakob Karolus, Stanislav Frolov

研究方向: 人工智能交互与图像生成

该研究提出了一种名为PromptMap的新交互方式,用于AI图像生成。它允许用户通过地图视图探索大量的合成提示示例,帮助用户找到灵感并更好地构建有效的提示。

ID: 2503.09436v1来源: arxiv发布时间: 2025-03-14

CASTLE: Benchmarking Dataset for Static Code Analyzers and LLMs towards CWE Detection

作者: Richard A. Dubniczky, Krisztofer Zoltán Horvát, Tamás Bisztray, Mohamed Amine Ferrag, Lucas C. Cordeiro, Norbert Tihanyi

研究方向: 软件安全与人工智能

该研究旨在评估不同方法在检测源代码中漏洞方面的能力,包括静态分析工具、形式化验证方法和大型语言模型(LLM)。研究人员创建了CASTLE(CWE自动安全测试和低级评估)基准数据集,包含250个微基准程序,涵盖25种常见的CWE。他们使用CASTLE分数评估了13个静态分析工具、10个LLM和2个形式化验证工具。

ID: 2503.09433v1来源: arxiv发布时间: 2025-03-14

Perplexity Trap: PLM-Based Retrievers Overrate Low Perplexity Documents

作者: Haoyu Wang, Sunhao Dai, Haiyuan Zhao, Liang Pang, Xiao Zhang, Gang Wang, Zhenhua Dong, Jun Xu, Ji-Rong Wen

研究方向: 人工智能,信息检索,预训练语言模型

本文研究了基于预训练语言模型(PLM)的检索器在信息检索过程中存在的源偏差问题,即检索器倾向于将低困惑度的文档(通常为LLM生成内容)评估为更相关。作者通过构建因果图,分析了困惑度对检索结果的影响,并提出了因果诊断和校正(CDC)方法来减轻这种偏差。

ID: 2503.08684v1来源: arxiv发布时间: 2025-03-12

CoLMDriver: LLM-based Negotiation Benefits Cooperative Autonomous Driving

作者: Changxing Liu, Genjia Liu, Zijun Wang, Jinchang Yang, Siheng Chen

研究方向: 自动驾驶,合作驾驶,语言模型

本文提出了一种名为CoLMDriver的自动驾驶系统,该系统利用语言模型进行合作规划,以改善自动驾驶车辆在复杂场景下的交互和协作能力。

ID: 2503.08683v1来源: arxiv发布时间: 2025-03-12

Chain-of-Thought Reasoning In The Wild Is Not Always Faithful

作者: Iván Arcuschin, Jett Janiak, Robert Krzyzanowski, Senthooran Rajamanoharan, Neel Nanda, Arthur Conmy

研究方向: 人工智能与机器学习

该研究主要关注人工智能中的思维链推理(CoT)的可靠性问题。研究者发现,即使是前沿的AI模型,在现实场景中的CoT推理也并不总是可靠的,即CoT推理并不总是反映模型得出结论的实际推理过程。

ID: 2503.08679v1来源: arxiv发布时间: 2025-03-12

GarmentCrafter: Progressive Novel View Synthesis for Single-View 3D Garment Reconstruction and Editing

作者: Yuanhao Wang, Cheng Zhang, Gonçalo Frazão, Jinlong Yang, Alexandru-Eugen Ichim, Thabo Beeler, Fernando De la Torre

研究方向: 3D服装重建与编辑

GarmentCrafter是一种基于单视图图像的3D服装重建和编辑方法,通过渐进式新颖视图合成,实现对服装的精确几何和纹理重建,并支持用户在单视图图像上进行2D编辑,这些编辑会无缝应用到3D模型上。

ID: 2503.08678v1来源: arxiv发布时间: 2025-03-12

AgentOrca: A Dual-System Framework to Evaluate Language Agents on Operational Routine and Constraint Adherence

作者: Zekun Li, Shinda Huang, Jiangtian Wang, Nathan Zhang, Antonis Antoniades, Wenyue Hua, Kaijie Zhu, Sirui Zeng, William Yang Wang, Xifeng Yan

研究方向: 自然语言处理与语言智能代理

本文介绍了AgentOrca,一个用于评估语言代理在操作流程和约束遵守方面的双系统框架。该框架通过自然语言提示和对应的可执行代码来编码动作约束和流程,并通过自动化测试案例生成和评估流程,在五个真实世界领域中对语言代理的约束遵守进行了量化评估。

ID: 2503.08669v1来源: arxiv发布时间: 2025-03-12