SECURA: Sigmoid-Enhanced CUR Decomposition with Uninterrupted Retention and Low-Rank Adaptation in Large Language Models

作者: Zhang Yuxuan, Li Ruizhe

研究方向: 大型语言模型(LLM)的持续学习和参数高效微调

本文提出了SECURA,一种基于Sigmoid增强的CUR分解低秩自适应(LoRA)的参数高效微调方法,旨在减轻LLM在微调过程中的灾难性遗忘问题,同时提高微调性能。

ID: 2502.18168v1来源: arxiv发布时间: 2025-02-27

iTrash: Incentivized Token Rewards for Automated Sorting and Handling

作者: Pablo Ortega, Eduardo Castelló Ferrer

研究方向: 智能垃圾处理与区块链激励机制

该研究提出了一种名为iTrash的智能垃圾桶系统,通过计算机视觉和基于区块链的激励机制来提高回收效率。该系统通过识别垃圾类型,并提供经济激励(加密货币奖励),使用户更倾向于正确分类垃圾。

ID: 2502.18161v1来源: arxiv发布时间: 2025-02-27

Monitoring snow avalanches from SAR data with deep learning

作者: Filippo Maria Bianchi, Jakob Grahn

研究方向: 利用深度学习技术进行雪崩监测与分割

本文研究了利用合成孔径雷达(SAR)数据,通过深度学习模型进行雪崩的检测与分割。主要内容包括SAR数据在雪崩监测中的应用,深度学习模型在雪崩检测中的优势,以及不同深度学习模型在雪崩分割中的应用效果。

ID: 2502.18157v1来源: arxiv发布时间: 2025-02-27

Can LLMs Explain Themselves Counterfactually?

作者: Zahra Dehghanighobadi, Asja Fischer, Muhammad Bilal Zafar

研究方向: 人工智能与机器学习

该研究探讨了大型语言模型(LLMs)在生成自我生成的反事实解释(SCEs)方面的能力。SCEs是一种特殊的自我解释方法,它通过修改输入来引导模型生成不同的输出,从而提供对模型预测的洞察。

ID: 2502.18156v1来源: arxiv发布时间: 2025-02-27

SASSHA: Sharpness-aware Adaptive Second-order Optimization with Stable Hessian Approximation

作者: Dahun Shin, Dongyeop Lee, Jinseok Chung, Namhoon Lee

研究方向: 深度学习优化与泛化

该论文提出了一种名为SASSHA的优化算法,旨在解决近似二阶优化方法在深度学习中的泛化问题。SASSHA通过减少解的尖锐度来提高泛化能力,同时稳定地近似Hessian矩阵。

ID: 2502.18153v1来源: arxiv发布时间: 2025-02-27

A Real-time Spatio-Temporal Trajectory Planner for Autonomous Vehicles with Semantic Graph Optimization

作者: Shan He, Yalong Ma, Tao Song, Yongzhi Jiang, Xinkai Wu

研究方向: 自动驾驶导航,运动和路径规划,智能交通系统

本文提出了一种基于语义时空图的实时时空轨迹规划方法,用于解决复杂城市环境中自动驾驶车辆的轨迹规划问题。该方法通过构建语义时空图,利用感知模块的多模态信息,实现静态和动态障碍物的有效处理,并通过图优化算法生成可行轨迹。

ID: 2502.18151v1来源: arxiv发布时间: 2025-02-27

Jacobian Sparse Autoencoders: Sparsify Computations, Not Just Activations

作者: Lucy Farnik, Tim Lawson, Conor Houghton, Laurence Aitchison

研究方向: 机器学习,深度学习,可解释人工智能

本文提出了 Jacobian Sparse Autoencoders (JSAEs),一种用于发现大型语言模型 (LLMs) 中稀疏计算的新方法。该方法通过优化计算图(Jacobian 矩阵)的稀疏性,旨在更深入地理解 LLMs 的内部计算过程。

ID: 2502.18147v1来源: arxiv发布时间: 2025-02-27

Large Language Model Driven Agents for Simulating Echo Chamber Formation

作者: Chenhao Gu, Ling Luo, Zainab Razia Zaidi, Shanika Karunasekera

研究方向: 社交媒体中的回音室效应模拟与分析

本研究提出了一种利用大型语言模型(LLM)作为生成代理来模拟社交网络中回音室动态的新框架。该框架结合了意见更新和网络重连行为,通过LLM进行驱动,从而实现具有情境意识和语义丰富性的社交互动模拟。

ID: 2502.18138v1来源: arxiv发布时间: 2025-02-27

SpargeAttn: Accurate Sparse Attention Accelerating Any Model Inference

作者: Jintao Zhang, Chendong Xiang, Haofeng Huang, Jia Wei, Haocheng Xi, Jun Zhu, Jianfei Chen

研究方向: 机器学习,自然语言处理,计算机视觉

本文提出了SpargeAttn,这是一种通用的稀疏和量化注意力机制,旨在加速各种模型(包括语言模型、图像和视频生成模型)的推理过程,同时保持端到端性能。

ID: 2502.18137v1来源: arxiv发布时间: 2025-02-27

EU-Nets: Enhanced, Explainable and Parsimonious U-Nets

作者: B. Sun, P. Liò

研究方向: 医学图像分割与深度学习可解释性

该研究提出了一种名为 EU-Nets 的新型 U-Net 变体,旨在提高医学图像分割的准确性和可解释性,同时减少模型参数量。

ID: 2502.18122v1来源: arxiv发布时间: 2025-02-27