JAM: Controllable and Responsible Text Generation via Causal Reasoning and Latent Vector Manipulation

作者: Yingbing Huang, Deming Chen, Abhishek K. Umrawal

研究方向: 可控和负责任的文本生成

该研究提出了一种名为JAM的框架,通过在LLM的潜在空间中整合因果推理和潜在向量操作,实现了对文本生成的控制和解释。JAM旨在解决大型语言模型在生成文本时缺乏可解释性和可控性的问题。

ID: 2502.20684v1来源: arxiv发布时间: 2025-03-03

Fine-tuning BERT with Bidirectional LSTM for Fine-grained Movie Reviews Sentiment Analysis

作者: Gibson Nkhata, Susan Gauch, Usman Anjum, Justin Zhan

研究方向: 自然语言处理(NLP)和情感分析(SA)

本文研究了利用预训练的BERT模型结合双向长短期记忆网络(BiLSTM)进行电影评论的情感分析。该研究旨在提高二元和细粒度情感分类的准确性,并通过数据增强和整体情感极性计算来增强模型性能。

ID: 2502.20682v1来源: arxiv发布时间: 2025-03-03

Disentangling Feature Structure: A Mathematically Provable Two-Stage Training Dynamics in Transformers

作者: Zixuan Gong, Jiaye Teng, Yong Liu

研究方向: 自然语言处理,机器学习,Transformer模型

本文研究Transformer模型在训练过程中的优化动态,提出了一种数学上可证明的两种阶段训练动态。通过将特征结构分解为两种类型:基础知识和专业知识,分析了Transformer的动态,并证明了这种分解如何导致两种阶段的训练动态。

ID: 2502.20681v1来源: arxiv发布时间: 2025-03-03

OpenEarthSensing: Large-Scale Fine-Grained Benchmark for Open-World Remote Sensing

作者: Xiang Xiang, Zhuo Xu, Yao Deng, Qinhao Zhou, Yifan Liang, Ke Chen, Qingfang Zheng, Yaowei Wang, Xilin Chen, Wen Gao

研究方向: 开放世界遥感图像分类与识别

本文介绍了一个名为OpenEarthSensing (OES) 的大型、细粒度开放世界遥感图像分类数据集,用于评估开放世界遥感模型在处理语义和协变量偏移方面的性能。OES包含五个子数据集,涵盖多个领域和模态,以模拟真实世界中的各种场景。

ID: 2502.20668v1来源: arxiv发布时间: 2025-03-03

Advancing AI-Powered Medical Image Synthesis: Insights from MedVQA-GI Challenge Using CLIP, Fine-Tuned Stable Diffusion, and Dream-Booth + LoRA

作者: Ojonugwa Oluwafemi Ejiga Peter, Md Mahmudur Rahman, Fahmi Khalifa

研究方向: 人工智能在医学图像合成中的应用

该研究旨在通过人工智能技术,特别是基于文本的图像生成模型,提高医学诊断的效率和准确性。研究重点关注动态、可扩展和精确的医学图像生成,以解决传统医学图像生成方法的局限性。

ID: 2502.20667v1来源: arxiv发布时间: 2025-03-03

Automatic database description generation for Text-to-SQL

作者: Yingqi Gao, Zhiling Luo

研究方向: 自然语言处理(NLP)与数据库查询转换(NL2SQL)

本文提出了一种自动生成数据库描述的方法,用于解决在文本到SQL(Text-to-SQL)任务中,当缺乏显式描述时,如何生成有效的数据库描述的问题。

ID: 2502.20657v1来源: arxiv发布时间: 2025-03-03

Dataset Distillation with Neural Characteristic Function: A Minmax Perspective

作者: Shaobo Wang, Yicun Yang, Zhiyuan Liu, Chenghao Sun, Xuming Hu, Conghui He, Linfeng Zhang

研究方向: 数据蒸馏与深度学习

本文提出了一种名为NCFM(Neural Characteristic Function Matching)的数据蒸馏方法,旨在通过神经网络特征匹配,将大型真实数据集压缩成小型合成数据集,同时保持数据集的分布和特征。该方法通过改进的分布匹配和特征提取策略,提高了数据蒸馏的效率和准确性。

ID: 2502.20653v1来源: arxiv发布时间: 2025-03-03

Consistency Evaluation of News Article Summaries Generated by Large (and Small) Language Models

作者: Colleen Gilhuly, Haleh Shahzad

研究方向: 自然语言处理,文本摘要,大型语言模型

本文研究了大型语言模型(LLMs)在新闻文章摘要生成中的表现,并评估了不同摘要方法的性能。研究者比较了多种文本摘要技术,包括TextRank、BART、Mistral-7B-Instruct和OpenAI GPT-3.5-Turbo,并使用ROUGE和BERT等标准评估指标以及LLM驱动的评估方法来评估摘要的一致性。

ID: 2502.20647v1来源: arxiv发布时间: 2025-03-03

FedConv: A Learning-on-Model Paradigm for Heterogeneous Federated Clients

作者: Leming Shen, Qiang Yang, Kaiyan Cui, Yuanqing Zheng, Xiao-Yong Wei, Jianwei Liu, Jinsong Han

研究方向: 联邦学习,模型异构性,模型压缩

FedConv是一种针对异构联邦客户端的联邦学习框架,旨在通过提供异构定制子模型来最小化资源受限客户端的计算和内存负担。

ID: 2502.20639v1来源: arxiv发布时间: 2025-03-03

A Compact Model for Large-Scale Time Series Forecasting

作者: Chin-Chia Michael Yeh, Xiran Fan, Zhimeng Jiang, Yujie Fan, Huiyuan Chen, Uday Singh Saini, Vivian Lai, Xin Dai, Junpeng Wang, Zhongfang Zhuang, Liang Wang, Yan Zheng

研究方向: 大规模时空数据预测

本文提出了一种名为 UltraSTF 的新型紧凑型时空预测模型,该模型旨在解决大规模时空数据预测中的效率与准确性平衡问题。它结合了跨周期稀疏预测组件和超紧凑形状库组件,以有效地捕捉时空数据中的周期性和时间依赖性。

ID: 2502.20634v1来源: arxiv发布时间: 2025-03-03