jp-disease-finding-dataset

Hugging Face2025-04-28 更新2025-04-29 收录

医学信息学

自然语言处理

数据链接：

https://huggingface.co/datasets/seiya/jp-disease-finding-dataset 数据链接链接失效反馈

官方服务：

资源简介：

该数据集从大约7千篇日本医学期刊文章中提取了信息（来源：《日本内科学会杂志》，2003年至2023年）。每篇文章包括疾病名称（日语）、相关症状/检查/并发症列表以及用词的引文描述。数据集还包括文章的元数据，如文章ID、作者、期刊信息、URL等。数据以JSON-Lines格式存储，每个疾病一个条目。

创建时间：

2025-04-28

原始信息汇总

数据集概述

基本信息

数据集名称: Disease–Finding Pairs from Japanese Internal‐Medicine Journals
语言: 日语 (ja)
许可证:
- CC BY 4.0
- 其他 (journal copyright policy)
数据集大小: 39,414,035 字节
下载大小: 11,611,040 字节
样本数量: 10,578 (训练集)

数据集结构

特征

article_id: 字符串
disease_text: 字符串 (疾病名称，日语)
authors: 字符串序列
title: 字符串
journal_meta: 结构体
- journal: 字符串
- year: int64
- volume: int64
- issue: int64
- pages: 字符串
url: 字符串
findings: 列表
- finding_text: 字符串
- finding_type: 字符串
- finding_description: 字符串

数据文件

格式: JSON-Lines (disease_level.jsonl)
内容: 每行代表一个疾病及其相关信息

数据来源

来源期刊: The Journal of the Japanese Society of Internal Medicine (2003 – 2023)
提取工具: GPT-4.1-mini

许可与使用

结构化事实

文件/列: disease_level.jsonl (除 finding_description 外的所有内容)
许可证: CC BY 4.0
允许用途: 商业和非商业用途，包括再分发、改编和机器学习，需署名。

引用的日语片段

列: finding_description
许可证: 期刊版权政策
允许用途: 建议非商业用途；不得更改措辞；需保留文章元数据。

期刊版权政策

日语期刊: 未明确显示 Creative Commons 许可证
英文期刊: CC BY-NC-ND 4.0

OpenAI 输出通知

限制: 不得使用这些输出来开发与 OpenAI 竞争的模型。

致谢

支持机构: JSPS KAKENHI Grant Number JP22K12263

引用

引用信息: 目前正在准备中...

搜集汇总

数据集介绍

构建方式

该数据集通过GPT-4.1-mini模型从约7000篇日本内科学会期刊（2003-2023年）中提取信息构建而成，涵盖了疾病名称、相关症状、检查结果及并发症等结构化数据。每行数据代表一个疾病实体，包含疾病文本、发现列表（症状、检查等）、引用描述及文章元数据，确保了数据的学术性和完整性。数据的提取和处理严格遵循学术引用规范，特别注重对原始日文片段的准确引用。

使用方法

使用该数据集时，建议首先了解其许可限制，结构化数据可用于商业和非商业用途，但需注明出处；引用片段则推荐非商业使用且不得修改原文。数据集以JSON-Lines格式提供，便于逐行处理和分析。用户可通过article_id、疾病名称或发现类型等字段进行检索和筛选，结合原始期刊元数据可进一步验证或扩展研究。注意遵守OpenAI条款，禁止使用相关输出开发竞争模型。

背景与挑战

背景概述

jp-disease-finding-dataset数据集由日本内科学会期刊的医学文献构建而成，涵盖了2003至2023年间约7千篇日文医学论文的疾病与症状关联信息。该数据集由日本学术振兴会（JSPS）资助，旨在为医学自然语言处理领域提供高质量的疾病-症状关联标注数据。通过GPT-4.1-mini模型自动化提取的疾病名称、临床表现及相关引文，为临床决策支持系统和医学知识图谱构建提供了重要资源。其跨二十年期刊文献的覆盖范围，显著提升了日语医学实体识别和关系抽取研究的基准水平。

当前挑战

该数据集面临的核心挑战在于医学实体标注的准确性与一致性。日文医学文献中疾病名称和症状描述存在大量专业术语和变体表达，自动化提取过程中易出现实体边界识别错误。同时，数据集构建受限于期刊版权政策，引文内容仅限非商业用途，制约了数据的广泛应用。此外，GPT-4生成内容受OpenAI使用条款限制，禁止用于开发竞争模型，这对医学大模型的研究形成法律壁垒。如何平衡学术引用规范与数据效用最大化，成为该数据集推广应用的关键难题。

常用场景

经典使用场景

在医学信息抽取领域，jp-disease-finding-dataset为研究者提供了丰富的日文内科疾病与相关症状、检查结果的配对数据。该数据集通过结构化呈现疾病名称、临床表现及原始文献引用，成为构建医学知识图谱的理想素材。其经典应用场景包括训练自然语言处理模型识别疾病-症状关联，以及辅助开发临床决策支持系统的核心算法模块。

解决学术问题

该数据集有效解决了医学文本挖掘中的关键挑战，包括跨语言医学实体识别、临床术语标准化以及非英语医学文献的知识抽取问题。通过提供精确标注的疾病-发现对，研究人员能够深入探究日文医学文本的语义特征，填补了亚洲语言医学NLP研究的数据空白，对推动循证医学的知识发现具有重要意义。

实际应用

在实际医疗场景中，该数据集支持开发智能分诊系统，通过匹配患者主诉与标准医学术语库提升初诊效率。医疗机构可利用其构建本地化临床知识库，辅助医师快速检索相关病例文献。医药企业则借助这些结构化数据优化药物不良反应监测系统，特别是在日语语境下的药物安全信号检测。

数据集最近研究