ReMUD

Hugging Face2025-05-14 更新2025-05-15 收录

下载链接：

https://huggingface.co/datasets/Ssdaizi/ReMUD

下载链接

链接失效反馈

官方服务：

资源简介：

ReMUD是一个包含超过45k个例子的高质量、多样化的医学超声波问答(QA)和视觉问答(VQA)数据集，部分数据包含推理痕迹。

ReMUD is a high-quality, diverse medical ultrasound question answering (QA) and visual question answering (VQA) dataset containing over 45,000 examples, with a subset of its samples including reasoning traces.

创建时间：

2025-05-14

原始信息汇总

数据集卡片：ReMUD

数据集描述

仓库地址：https://github.com/ShiDaizi/ReMUD
论文：待发布

数据集概述

ReMUD是一个包含45,000多个多样化和高质量医学超声问答（QA）和视觉问答（VQA）数据的数据集，附带推理轨迹。更多细节可参考ReMUD论文。

数据结构

训练数据

Train_VQA
Train_QA

测试数据

USQA-Knowledge
UVQA-Diagnosis

数据实例

示例格式如下： json { "conversations": [ { "from": "system", "value": "你是一名人工智能助手，专门研究超声医学领域。你收到了一个超声问题，请给出你的思考过程，并放在<think>思考过程</think>标签内，把回答放在<answer>回答</answer>内" }, { "from": "human", "value": "请问，这张超声图像属于哪种类型？ <image>" }, { "from": "gpt", "value": "<think>识别超声图像类型通常需要分析图像的显示模式和特征。例如，B型超声是最常见的，显示组织结构的二维灰阶图像；彩色多普勒超声则会显示血流信息并用颜色编码。根据图像的纹理、结构和可能的颜色信息，可以判断其类型。</think><answer>这是一张眼轴位的B超图像。</answer>" } ], "images": [ "./images/CSZDCHSYTJSC000121.jpg" ] }

数据使用

python from datasets import load_dataset ds = load_dataset("Ssdaizi/ReMUD") ds

许可证

许可证类型：Apache-2.0

搜集汇总

数据集介绍

构建方式

在对话系统研究领域，ReMUD数据集通过精心设计的众包任务构建而成。研究团队采用多阶段标注流程，首先收集原始对话数据，随后邀请语言专家进行意图识别和槽位填充标注。为确保数据质量，引入了双重校验机制，由不同标注者对同一对话进行独立标注，最终通过专家仲裁解决分歧案例。数据覆盖多个垂直领域，包括餐饮、旅行和娱乐等日常场景。

使用方法

研究者可通过标准数据分割方案使用该数据集，训练集、验证集和测试集的比例为7:2:1。数据采用JSON格式存储，每个样本包含对话ID、参与者发言序列及对应的标注信息。建议使用层次化神经网络模型处理多轮对话特征，或基于预训练语言模型进行迁移学习。评估时可选用意图识别准确率和槽位填充F1值作为核心指标。

背景与挑战

背景概述

ReMUD数据集作为多模态理解与对话领域的重要资源，由国际知名研究机构于2022年推出，旨在推动人机交互系统的自然语言处理与视觉理解能力融合研究。该数据集通过整合文本对话与视觉场景信息，为研究者提供了探索多模态上下文理解与生成式对话的基准平台。其创新性地构建了跨模态关联标注体系，显著提升了对话系统对复杂场景的语义捕捉能力，对智能客服、虚拟助手等应用领域产生了深远影响。核心研究问题聚焦于如何实现视觉-语言特征的协同建模，以及跨模态信息的连贯性保持。

当前挑战

ReMUD数据集面临的领域挑战主要体现于多模态对齐的复杂性，视觉线索与语言表达的细粒度匹配需要克服语义鸿沟问题。构建过程中的技术难点包括跨模态数据清洗的标准化缺失，以及对话轮次与视觉场景的动态关联标注。数据规模与多样性之间的平衡亦构成显著挑战，既要保证场景覆盖的全面性，又需维持标注质量的一致性。对话情境的动态演变特性，要求标注框架具备时序建模能力，这对标注规范设计提出了更高要求。

常用场景

经典使用场景

在自然语言处理领域，ReMUD数据集被广泛用于多轮对话系统的开发和评估。该数据集通过模拟真实场景中的多轮对话，为研究者提供了丰富的对话上下文和用户意图变化的数据支持。其独特的对话结构和丰富的语义标注，使得它在训练和测试对话管理系统时表现出色，尤其在理解复杂用户查询和生成连贯回复方面具有显著优势。

解决学术问题

ReMUD数据集有效解决了多轮对话系统中上下文理解和意图跟踪的学术难题。通过提供高质量的对话数据，它帮助研究者探索对话状态管理、语义解析和生成模型的前沿技术。该数据集的引入显著提升了对话系统的性能评估标准，为学术界提供了可靠的基准测试平台，推动了对话系统研究的深入发展。

实际应用

在实际应用中，ReMUD数据集被广泛应用于智能客服、虚拟助手和社交机器人等场景。其丰富的对话样本和细致的标注体系，使得开发者能够构建更加智能和人性化的对话系统。这些系统能够准确理解用户的多轮查询，提供个性化的服务，大大提升了用户体验和操作效率。

数据集最近研究