AfroXLMR-Comet: Multilingual Knowledge Distillation with Attention Matching for Low-Resource languages

作者: Joshua Sakthivel Raju, Sanjay S, Jaskaran Singh Walia, Srinivas Raghav, Vukosi Marivate

研究方向: 低资源语言的自然语言处理

该研究提出了一种名为AfroXLMR-Comet的轻量级多语言模型,通过知识蒸馏和注意力匹配技术,在保证性能的同时显著降低了模型的尺寸,使其更适用于资源受限的环境,特别是非洲语言。

ID: 2502.18020v1来源: arxiv发布时间: 2025-02-27

ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents

作者: Qiuchen Wang, Ruixue Ding, Zehui Chen, Weiqi Wu, Shihang Wang, Pengjun Xie, Feng Zhao

研究方向: 视觉文档检索增强生成(Visual Document Retrieval-Augmented Generation, RAG)

本文提出了ViDoRAG,一种针对视觉丰富文档的多代理RAG框架,旨在解决现有RAG方法在视觉文档检索、理解和推理中的局限性。通过引入ViDoSeek数据集,评估了RAG在复杂推理任务中的表现,并提出了一种基于高斯混合模型(GMM)的多模态混合检索策略和迭代推理的多代理生成框架。

ID: 2502.18017v1来源: arxiv发布时间: 2025-02-27

NotaGen: Advancing Musicality in Symbolic Music Generation with Large Language Model Training Paradigms

作者: Yashan Wang, Shangda Wu, Jianhuai Hu, Xingjian Du, Yueqi Peng, Yongxin Huang, Shuai Fan, Xiaobing Li, Feng Yu, Maosong Sun

研究方向: 音乐生成与音乐信息检索

本文研究了如何利用大型语言模型(LLM)技术来生成高质量的古典乐谱。通过预训练、微调和强化学习等方法,模型能够在不同风格和乐器配置下生成具有音乐美感的乐谱。

ID: 2502.18008v2来源: arxiv发布时间: 2025-02-27

Radon-Nikodým Derivative: Re-imagining Anomaly Detection from a Measure Theoretic Perspective

作者: Shlok Mehendale, Aditya Challa, Rahul Yedida, Sravan Danda, Santonu Sarkar, Snehanshu Saha

研究方向: 异常检测

本文研究了异常检测问题,提出了一种基于Radon-Nikodym导数的加权损失函数(RN-Loss),旨在提高异常检测的性能。

ID: 2502.18002v1来源: arxiv发布时间: 2025-02-27

GNN-XAR: A Graph Neural Network for Explainable Activity Recognition in Smart Homes

作者: Michele Fiori, Davide Mor, Gabriele Civitarese, Claudio Bettini

研究方向: 智能家居环境中的可解释活动识别

本文提出了一种名为GNN-XAR的可解释图神经网络系统,用于智能家居环境中的活动识别。该系统通过构建图表示传感器数据,使用图卷积网络进行活动分类,并通过可解释人工智能方法生成自然语言解释。

ID: 2502.17999v1来源: arxiv发布时间: 2025-02-27

MAGE: Multi-Head Attention Guided Embeddings for Low Resource Sentiment Classification

作者: Varun Vashisht, Samar Singh, Mihir Konduskar, Jaskaran Singh Walia, Vukosi Marivate

研究方向: 低资源语言的自然语言处理和文本分类

本文针对低资源Bantu语言在文本分类任务中的数据稀缺问题,提出了一种名为MAGE(Multi-Head Attention Guided Embeddings)的模型。该模型结合了语言无关数据增强(LiDA)和多头注意力机制,通过改进嵌入和增强过程,有效地提高了低资源语言的文本分类性能。

ID: 2502.17987v1来源: arxiv发布时间: 2025-02-27

Broadening Discovery through Structural Models: Multimodal Combination of Local and Structural Properties for Predicting Chemical Features

作者: Nikolai Rekut, Alexey Orlov, Klea Ziu, Elizaveta Starykh, Martin Takac, Aleksandr Beznosikov

研究方向: 化学信息学、分子表征学习、机器学习在化学中的应用

该研究旨在开发一种基于指纹的特定语言模型,并将其与图模型相结合,以提高预测化学特性的准确性。研究主要关注SMILES格式的局限性,并探索化学指纹在模型训练中的应用。

ID: 2502.17986v1来源: arxiv发布时间: 2025-02-27

LLM Knows Geometry Better than Algebra: Numerical Understanding of LLM-Based Agents in A Trading Arena

作者: Tianmi Ma, Jiawei Du, Wenxin Huang, Wenjie Wang, Liang Xie, Xian Zhong, Joey Tianyi Zhou

研究方向: 大语言模型(LLM)在数值推理任务中的表现,特别是在金融交易场景中的应用。

本文通过设计一个虚拟的股票交易环境(Agent Trading Arena),评估了LLM在处理文本和视觉数据时的数值推理能力。研究发现,LLM在处理几何推理任务(如K线图)时表现优于代数推理任务(如文本数据)。通过引入反思模块(Reflection Module),进一步提升了模型在复杂数据分析和决策中的表现。

ID: 2502.17967v1来源: arxiv发布时间: 2025-02-27

Language Models' Factuality Depends on the Language of Inquiry

作者: Tushar Aggarwal, Kumar Tanmay, Ayush Agrawal, Kumar Ayush, Hamid Palangi, Paul Pu Liang

研究方向: 多语言语言模型(Multilingual Language Models, LMs)的事实性(Factuality)与跨语言知识迁移(Cross-Lingual Knowledge Transfer)

本文研究了多语言语言模型在不同语言中事实性知识的一致性表现,发现模型在跨语言知识迁移上存在显著的不对称性。研究提出了一个新的基准数据集,包含13种语言的10,000个与国家相关的事实,并引入了三个新的评估指标:Factual Recall Score (FRS)、Knowledge Transferability Score (KTS) 和 Cross-Lingual Factual Knowledge Transferability Score (X-FaKT),用于量化模型在不同语言中的事实性回忆和知识迁移能力。实验结果表明,当前最先进的语言模型在跨语言知识迁移上存在显著缺陷,尤其是在低资源语言中的表现较差。

ID: 2502.17955v1来源: arxiv发布时间: 2025-02-27

Robust Polyp Detection and Diagnosis through Compositional Prompt-Guided Diffusion Models

作者: Jia Yu, Yan Zhu, Peiyao Fu, Tianyi Chen, Junbo Huang, Quanlin Li, Pinghong Zhou, Zhihua Wang, Fei Wu, Shuo Wang, Xian Yang

研究方向: 医学图像生成与结直肠癌息肉检测

本文提出了一种基于扩散模型(Diffusion Models)的渐进频谱扩散模型(Progressive Spectrum Diffusion Model, PSDM),通过组合提示(compositional prompts)生成多样化的息肉图像,以增强结直肠癌(CRC)息肉的检测、分类和分割任务。该模型通过整合分割掩码、边界框和结肠镜检查报告等多模态临床注释,生成具有临床意义的合成图像,显著提高了模型在跨域(out-of-distribution, OOD)数据上的泛化能力。

ID: 2502.17951v1来源: arxiv发布时间: 2025-02-27