A Deep User Interface for Exploring LLaMa
作者: Divya Perumal, Swaroop Panda
研究方向: 大型语言模型(LLM)的可解释性和用户界面设计
本文提出了一种基于视觉分析的工具,用于探索大型语言模型(LLM)的输出,特别是通过调整关键超参数(如top-p、频率和存在惩罚)来影响模型生成文本的能力。该工具旨在提高用户对LLM的理解和交互能力。
作者: Divya Perumal, Swaroop Panda
研究方向: 大型语言模型(LLM)的可解释性和用户界面设计
本文提出了一种基于视觉分析的工具,用于探索大型语言模型(LLM)的输出,特别是通过调整关键超参数(如top-p、频率和存在惩罚)来影响模型生成文本的能力。该工具旨在提高用户对LLM的理解和交互能力。
作者: Michael Dinzinger, Laura Caspari, Kanishka Ghosh Dastidar, Jelena Mitrović, Michael Granitzer
研究方向: 多语言信息检索和问答系统
WebFAQ项目旨在构建一个大规模的多语言问答数据集,用于信息检索和问答系统的研究与开发。
作者: Maxime Méloux, Silviu Maniu, François Portet, Maxime Peyrard
研究方向: 机器学习解释性
本文研究了机制可解释性(MI)在神经网络中的应用,特别是针对MI解释的唯一性问题。作者通过实验发现,在简单的任务和小的多层感知器(MLP)中,MI解释可能存在多个互斥的解释,这挑战了MI解释唯一性的直觉。
作者: Yifan Zhong, Xuchuan Huang, Ruochong Li, Ceyao Zhang, Yitao Liang, Yaodong Yang, Yuanpei Chen
研究方向: 机器人与自动化
本文提出了一种名为DexGraspVLA的视觉-语言-动作框架,旨在实现通用灵活抓取。该框架利用预训练的视觉-语言模型作为高级任务规划器,并学习基于扩散的策略作为低级动作控制器。它通过迭代地将多种视觉和语言输入转换为领域不变表示,从而实现模仿学习,并有效缓解了领域偏移问题,从而在真实世界场景中实现鲁棒的泛化。
作者: Amadou S. Sangare, Nicolas Dunou, Jhony H. Giraldo, Fragkiskos D. Malliaros
研究方向: 图表示学习与自监督学习
本文提出了一种名为FOSSIL的融合Gromov-Wasserstein子图对比学习方法,用于自监督图表示学习。该方法结合了节点级和子图级对比学习,利用融合Gromov-Wasserstein距离同时捕捉节点特征和图结构,旨在解决现有方法在结构模式和节点相似性利用方面的不足。
作者: Xujie Yuan, Yongxu Liu, Shimin Di, Shiwen Wu, Libin Zheng, Rui Meng, Xiaofang Zhou, Lei Chen, Jian Yin
研究方向: 知识图谱增强检索生成(KG-RAG)方法的研究与应用
本文针对知识图谱增强检索生成(KG-RAG)方法在自然语言处理中的应用进行了深入研究。通过分析不同场景下的KG-RAG方法,探讨了何时以及如何使用KG-RAG方法来提升生成模型的性能。
作者: Yuxiang Chen, Haocheng Xi, Jun Zhu, Jianfei Chen
研究方向: 机器学习,低精度训练,视觉Transformer
本文提出了TetraJet,一种基于MXFP4格式的视觉Transformer训练方法,旨在提高4位精度训练的准确性,并通过引入EMA Quantizer(Q-EMA)和Adaptive Ramping Optimizer(Q-Ramping)来减少训练过程中的振荡问题。
作者: Shi Meng, Bin Tian, Xiaotong Zhang
研究方向: 智能矿山管理与调度
本文研究了利用强化学习(RL)技术进行卡车调度,以解决露天矿开采中卡车调度算法的复杂性和动态不确定性问题。
作者: Elira Shaska, Tony Shaska
研究方向: 神经符号学习在代数计算中的应用
本文提出了一种神经符号方法来对多项式的伽罗瓦群进行分类,将经典伽罗瓦理论与机器学习相结合,以解决代数计算中的挑战。通过结合神经网络与符号推理,利用根分布、特征和分解式等不变量,开发了一种在准确性和可解释性方面优于纯数值方法的模型。
作者: Yoonyoung Cho, Junhyek Han, Jisu Han, Beomjoon Kim
研究方向: 机器人非抓取操作与模拟
该研究提出了一种名为 HAMNET 的模块化架构,用于在模拟环境中进行非抓取操作。该架构结合了基于接触的对象和环境表示(UNICORN)以及用于构建多样化环境几何形状的程序生成算法。研究旨在提高机器人对各种环境和物体的非抓取操作能力。