DxBench

Name: DxBench
Creator: FreedomAI
Published: 2024-07-17 17:00:22
License: 暂无描述

Hugging Face2024-07-17 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/FreedomIntelligence/DxBench

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个疾病诊断基准，包含英文和中文两种语言，主要用于文本生成和标记分类任务。数据集分为三个配置：DxBench、Dxy和Muzhi，每个配置都有对应的英文和中文数据文件。

This dataset is a disease diagnosis benchmark supporting both English and Chinese languages, and is mainly designed for text generation and token classification tasks. The dataset is divided into three configurations: DxBench, Dxy and Muzhi, each of which has corresponding English and Chinese data files.

提供机构：

FreedomAI

创建时间：

2024-07-17

原始信息汇总

数据集概述

许可证

Apache 2.0

任务类别

文本到文本生成
标记分类

语言

英语
中文

数据集名称

Disease Diagnostic Benchmark

配置

DxBench
- 数据文件:
  - 英文: English/DxBench_en.json
  - 中文: Chinese/DxBench_zh.json
Dxy
- 数据文件:
  - 英文: English/Dxy_en.json
  - 中文: Chinese/Dxy_zh.json
Muzhi
- 数据文件:
  - 英文: English/Muzhi_en.json
  - 中文: Chinese/Muzhi_zh.json

搜集汇总

数据集介绍

构建方式

DxBench数据集的构建基于多源医疗文本数据，涵盖了英文和中文两种语言环境。数据来源于公开的医疗问答平台和电子病历系统，经过严格的清洗和标注流程，确保数据的准确性和一致性。数据集通过JSON格式存储，分为不同的配置文件，每个配置文件包含特定语言的数据文件，便于用户按需选择和使用。

特点

DxBench数据集的特点在于其多语言支持和丰富的医疗领域覆盖。数据集不仅包含英文和中文的医疗文本，还涵盖了多种疾病诊断场景，能够为自然语言处理任务提供多样化的训练和测试环境。此外，数据集的标注质量高，适用于文本生成和标记分类等多种任务，具有广泛的应用潜力。

使用方法

使用DxBench数据集时，用户可以根据任务需求选择相应的配置文件和语言版本。数据集支持直接加载到Hugging Face的Transformers库中，便于进行文本生成或标记分类任务的训练和评估。用户还可以通过自定义数据处理流程，进一步挖掘数据集的潜力，应用于医疗领域的自然语言处理研究和开发。

背景与挑战

背景概述

DxBench数据集由Junying Chen等研究人员于2024年创建，旨在为医学领域的文本生成和标记分类任务提供基准测试。该数据集涵盖了英文和中文两种语言，专注于疾病诊断相关的文本处理。其核心研究问题在于如何通过链式诊断（Chain of Diagnosis）方法提升医学代理的可解释性，从而辅助医疗决策。DxBench的发布为医学自然语言处理领域提供了重要的数据支持，推动了医学文本理解和诊断自动化的发展。

当前挑战

DxBench数据集在解决医学文本生成和标记分类问题时面临多重挑战。首先，医学文本的复杂性和专业性要求模型具备高度的语义理解能力，尤其是在多语言环境下，如何准确捕捉不同语言的医学表达差异成为一大难题。其次，构建过程中，数据标注的准确性和一致性至关重要，医学领域的专业术语和诊断逻辑需要精确标注，这对标注人员的专业知识提出了极高要求。此外，数据集的多样性和覆盖范围也需平衡，以确保模型在不同疾病和诊断场景下的泛化能力。

常用场景

经典使用场景

DxBench数据集在医学领域的自然语言处理任务中展现了其独特的价值，尤其是在疾病诊断和文本生成方面。该数据集通过提供多语言（如英语和中文）的医学文本，支持研究人员开发能够理解和生成医学诊断报告的模型。这些模型不仅能够处理复杂的医学术语，还能在不同语言之间进行有效的转换，极大地提升了跨语言医学信息处理的效率。

衍生相关工作

基于DxBench数据集，研究人员已经开发了多种先进的医学自然语言处理模型和系统。例如，一些研究利用该数据集训练了能够自动生成医学诊断报告的模型，这些模型在准确性和效率方面都达到了较高的水平。此外，还有一些研究专注于跨语言的医学文本翻译和信息检索，这些工作极大地促进了国际医学界的交流与合作。

数据集最近研究

DxBench

数据集概述

许可证

任务类别

语言

标签

数据集名称

配置