MASTER: Multimodal Segmentation with Text Prompts
作者: Fuyang Liu, Shun Lu, Jilin Mei, Yu Hu
研究方向: 自动驾驶场景下的多模态图像分割与语义理解
该研究提出了一种名为MASTER的多模态分割模型,该模型通过融合RGB和热成像数据,并结合文本提示,实现自动驾驶场景下的像素级图像语义分割。
作者: Fuyang Liu, Shun Lu, Jilin Mei, Yu Hu
研究方向: 自动驾驶场景下的多模态图像分割与语义理解
该研究提出了一种名为MASTER的多模态分割模型,该模型通过融合RGB和热成像数据,并结合文本提示,实现自动驾驶场景下的像素级图像语义分割。
作者: Adnan Shahid, Adrian Kliks, Ahmed Al-Tahmeesschi, Ahmed Elbakary, Alexandros Nikou, Ali Maatouk, Ali Mokh, Amirreza Kazemi, Antonio De Domenico, Athanasios Karapantelakis, Bo Cheng, Bo Yang, Bohao Wang, Carlo Fischione, Chao Zhang, Chaouki Ben Issaid, Chau Yuen, Chenghui Peng, Chongwen Huang, Christina Chaccour, Christo Kurisummoottil Thomas, Dheeraj Sharma, Dimitris Kalogiros, Dusit Niyato, Eli De Poorter, Elissa Mhanna, Emilio Calvanese Strinati, Faouzi Bader, Fathi Abdeldayem, Fei Wang, Fenghao Zhu, Gianluca Fontanesi, Giovanni Geraci, Haibo Zhou, Hakimeh Purmehdi, Hamed Ahmadi, Hang Zou, Hongyang Du, Hoon Lee, Howard H. Yang, Iacopo Poli, Igor Carron, Ilias Chatzistefanidis, Inkyu Lee, Ioannis Pitsiorlas, Jaron Fontaine, Jiajun Wu, Jie Zeng, Jinan Li, Jinane Karam, Johny Gemayel, Juan Deng, Julien Frison, Kaibin Huang, Kehai Qiu, Keith Ball, Kezhi Wang, Kun Guo, Leandros Tassiulas, Lecorve Gwenole, Liexiang Yue, Lina Bariah, Louis Powell, Marcin Dryjanski, Maria Amparo Canaveras Galdon, Marios Kountouris, Maryam Hafeez, Maxime Elkael, Mehdi Bennis, Mehdi Boudjelli, Meiling Dai, Merouane Debbah, Michele Polese, Mohamad Assaad, Mohamed Benzaghta, Mohammad Al Refai, Moussab Djerrab, Mubeen Syed, Muhammad Amir, Na Yan, Najla Alkaabi, Nan Li, Nassim Sehad, Navid Nikaein, Omar Hashash, Pawel Sroka, Qianqian Yang, Qiyang Zhao, Rasoul Nikbakht Silab, Rex Ying, Roberto Morabito, Rongpeng Li, Ryad Madi, Salah Eddine El Ayoubi, Salvatore D'Oro, Samson Lasaulce, Serveh Shalmashi, Sige Liu, Sihem Cherrared, Swarna Bindu Chetty, Swastika Dutta, Syed A. R. Zaidi, Tianjiao Chen, Timothy Murphy, Tommaso Melodia, Tony Q. S. Quek, Vishnu Ram, Walid Saad, Wassim Hamidouche, Weilong Chen, Xiaoou Liu, Xiaoxue Yu, Xijun Wang, Xingyu Shang, Xinquan Wang, Xuelin Cao, Yang Su, Yanping Liang, Yansha Deng, Yifan Yang, Yingping Cui, Yu Sun, Yuxuan Chen, Yvan Pointurier, Zeinab Nehme, Zeinab Nezami, Zhaohui Yang, Zhaoyang Zhang, Zhe Liu, Zhenyu Yang, Zhu Han, Zhuang Zhou, Zihan Chen, Zirui Chen, Zitao Shuai
研究方向: 大语言模型在电信领域的应用与挑战
本文分析了大语言模型(LLMs)在电信领域的应用前景,包括网络自动化、故障诊断、客户服务、网络规划等方面。同时,也探讨了LLMs在电信领域所面临的挑战,例如模型推理速度、模型大小、互操作性、可信度、能耗、延迟、安全性和隐私保护等。
作者: Sicong Liu, Bin Guo, Shiyan Luo, Yuzhan Wang, Hao Luo, Cheng Fang, Yuan Xu, Ke Ma, Yao Li, Zhiwen Yu
研究方向: 移动深度学习部署与优化
CrowdHMTware 是一个针对异构移动设备的动态上下文自适应深度学习部署中间件。它通过建立跨级自适应机制,实现弹性推理、可扩展卸载和模型自适应引擎之间的自动化适应循环,从而提高可扩展性和适应性。
作者: Hejie Cui, Alyssa Unell, Bowen Chen, Jason Alan Fries, Emily Alsentzer, Sanmi Koyejo, Nigam Shah
研究方向: 医学自然语言处理,纵向临床记录的时间推理
本文提出了一种名为TIMER的框架,用于评估和增强大型语言模型(LLMs)在纵向电子健康记录(EHRs)上的时间推理能力。TIMER框架包括两个主要组件:TIMER-Bench,一个用于评估LLMs在纵向EHRs上时间推理能力的基准;TIMER-Instruct,一种用于通过时间感知指令调整来提高LLMs纵向推理能力的方法。
作者: Xiaolong Li, Jianhao Wei, Haidong Wang, Li Dong, Ruoyang Chen, Changyan Yi, Jun Cai, Dusit Niyato, Xuemin, Shen
研究方向: 智能交通系统(ITS)中的数字孪生和融合感知技术
该研究提出了一种名为SV-FDT的框架,旨在通过融合监控视频和数字孪生技术,实现包含行人和车辆在内的智能交通系统。该框架通过多源监控视频构建行人和车辆交互模型,并在云端和边缘设备之间进行分布式数据处理。
作者: Yufang Liu, Yao Du, Tao Ji, Jianing Wang, Yang Liu, Yuanbin Wu, Aimin Zhou, Mengdi Zhang, Xunliang Cai
研究方向: 多模态数学推理,特别是视觉信息在推理中的作用
研究多模态数学推理中视觉信息的作用,发现现有模型对视觉信息的利用不足,并引入HC-M3D数据集以增强模型对视觉信息的依赖。
作者: Ziqiang Cui, Yunpeng Weng, Xing Tang, Xiaokun Zhang, Dugang Liu, Shiwei Li, Peiyang Liu, Bowei He, Weihong Luo, Xiuqiang He, Chen Ma
研究方向: 序列推荐系统、对比学习、语义信息、大型语言模型(LLM)
针对序列推荐系统中数据稀疏的问题,该研究提出了一种名为SRA-CL(语义检索增强对比学习)的新方法。该方法利用LLM的语义理解和推理能力,通过语义检索来增强对比学习,从而提高序列推荐系统的性能。
作者: Shuzhi Gong, Richard Sinnott, Jianzhong Qi, Cecile Paris
研究方向: 虚假信息检测与社交媒体安全
该研究针对社交媒体上虚假新闻的广泛传播问题,提出了一种名为FNDCD(通过因果去偏见的虚假新闻检测)的新方法,旨在解决现有虚假新闻检测方法在处理未见过的虚假新闻时的局限性。
作者: Chupeng Liu, Runkai Zhao, Weidong Cai
研究方向: 计算机视觉,3D目标检测,弱监督学习
本文针对弱监督单目3D目标检测问题,提出了一种名为CA-W3D的上下文感知弱监督框架。该框架旨在通过引入上下文感知知识来解决传统弱监督方法在复杂场景中难以捕捉全局场景上下文的局限性。
作者: Yongchao Long, Chao Yang, Gongzheng Tang, Jinwei Wang, Zhun Sui, Yuxi Zhou, Shenda Hong, Luxia Zhang
研究方向: 医疗领域的大语言模型(LLM)应用与隐私保护
本文介绍了一种名为KidneyTalk-open的桌面系统,该系统旨在解决医疗领域LLM应用中的隐私保护、技术门槛和知识整合问题。系统集成了先进的开源LLM模型、医疗文档处理管道和自适应检索增强管道,为临床医生提供无代码的、安全的、基于文档的医学问答功能。