RuMedQ

github2021-11-19 更新2024-05-31 收录

下载链接：

https://github.com/sberbank-ai-lab/RuMedQ

下载链接

链接失效反馈

官方服务：

资源简介：

俄罗斯医学问题数据集(RuMedQ)是一个合成数据集，包含症状 - 关于该症状的医学问题的配对，以及一个标签，指示问题是否与该症状对应(1)或不对应(0)。该数据集使用RuGPT3模型在少量症状-问题对上训练后生成，并经过清理和标注。该数据集可用于训练模型生成医学问题或作为自然语言推理任务的基准。

The Russian Medical Question Dataset (RuMedQ) is a synthetic dataset comprising symptom-medical question pairs, along with a label indicating whether the question corresponds to the symptom (1) or not (0). This dataset was generated using the RuGPT3 model after training on a limited number of symptom-question pairs, followed by cleaning and annotation. It serves as a valuable resource for training models to generate medical questions or as a benchmark for natural language inference tasks.

创建时间：

2021-11-17

原始信息汇总

数据集概述

数据集名称

Russian Medical Questions Dataset (RuMedQ)

数据集描述

RuMedQ是一个合成数据集，包含“症状”与“关于此症状的医疗问题”的配对，以及一个标签，指示由RuGPT3生成的问句是否与该症状相关（1表示相关，0表示不相关）。该数据集使用RuGPT3模型，基于一小部分症状-问题配对进行训练后生成。生成后，数据集经过清理，去除了语法错误的问句，修正了一些拼写错误和生成错误，并进行了问句与症状是否匹配的标注。

数据集用途

训练模型以从给定症状生成医疗问题。
作为自然语言推理任务的基准，其中症状和问题作为需要匹配的句子对。

语言

俄语

数据集结构

数据实例：每个实例包含症状、问题和是否正确匹配的标签。
数据字段：
- symptom: 字符串类型
- question: 字符串类型
- isCorrectQ: 整数类型（0或1）
数据形状：6053行，3列

数据集创建

数据集通过RuGPT3模型生成，该模型训练于一小部分症状-问题配对。生成后，数据集经过清理和标注，确保问句与症状的匹配性。

标注过程

标注者：两名具有医学或药学背景的专家。
标注任务：确定问句是否与给定症状匹配。
标注方法：每位标注者负责不重叠的子集，每对症状-问题由一位标注者标注。

许可证信息

数据集遵循CC BY 4.0许可证。

引用信息

@misc{Nesterov_RuMedQ_2021, author = {Nesterov, Alexandr and Zubkova, Galina}, month = {11}, title = {{RuMedQ}}, url = {https://github.com/sberbank-ai-lab/RuMedQ}, version = {1.0.0}, year = {2021} }

贡献者

数据集准备：Alexander Nesterov, DS at Sber AI Lab
数据集标注：Galina Zubkova, PM at Sber AI Lab and Alexander Nesterov, DS at Sber AI Lab

搜集汇总

数据集介绍

构建方式

RuMedQ数据集的构建过程主要依赖于RuGPT3模型，该模型在一个小型症状-问题对语料库上进行训练，生成了大量的症状与相关医学问题的配对。生成后，数据集经过清洗，移除了语法不正确的问句，并修正了部分拼写错误和生成中的严重错误。随后，由具有医学或药学背景的专家对数据集进行标注，确保每个问题与症状的对应关系准确无误。

特点

RuMedQ数据集的特点在于其专注于俄语医学领域，提供了6053条症状与医学问题的配对，每条记录包含症状描述、相关医学问题以及一个二元标签，指示问题是否准确反映了症状。这种结构使得数据集特别适用于训练模型生成医学问题，以及作为自然语言推理任务的基准。

使用方法

RuMedQ数据集的使用方法多样，首先可以用于训练模型从给定症状生成相关医学问题，其次可以作为自然语言推理任务的基准，其中症状和问题作为一对句子，模型需要判断它们之间的逻辑关系。此外，数据集的结构和标注质量也为研究者提供了丰富的实验材料，以探索更复杂的医学语言处理任务。

背景与挑战

背景概述

RuMedQ数据集由Sber AI Lab的研究人员Alexandr Nesterov和Galina Zubkova于2021年创建，旨在解决俄语医学领域中的自然语言处理问题。该数据集包含6053对“症状-医学问题”的配对，并通过RuGPT3模型生成。每对数据均标注了问题是否与症状相符，适用于医学问题生成和自然语言推理任务。RuMedQ的创建不仅推动了俄语医学文本处理技术的发展，还为相关领域的研究提供了重要的基准数据。

当前挑战

RuMedQ数据集在构建过程中面临多重挑战。首先，生成医学问题的准确性依赖于RuGPT3模型的训练质量，而模型在生成过程中可能出现语法错误或语义偏差，需通过人工校正和清理。其次，数据标注的准确性依赖于具有医学背景的专家，这对标注人员的专业知识和一致性提出了较高要求。此外，数据集的应用场景较为特定，如何将其扩展到更广泛的医学文本处理任务仍需进一步探索。

常用场景

经典使用场景

RuMedQ数据集在医学自然语言处理领域具有广泛的应用，尤其是在生成医学问题和自然语言推理任务中。通过提供症状与相关医学问题的配对，该数据集为研究人员提供了一个基准，用于训练模型生成与特定症状相关的医学问题。此外，数据集还可用于评估模型在自然语言推理任务中的表现，即判断给定症状与问题之间的逻辑关系。

衍生相关工作

RuMedQ数据集自发布以来，已衍生出多项相关研究工作。例如，基于该数据集的研究推动了医学自然语言生成模型的发展，特别是在俄语医学文本生成领域。此外，该数据集还被用于改进自然语言推理模型，特别是在处理医学文本时的逻辑一致性评估。这些工作不仅提升了模型的性能，也为医学自然语言处理领域提供了新的研究方向。

数据集最近研究