中文医学语料库|医学文本数据集|中文语料数据集

github2021-07-02 更新2024-05-31 收录

医学文本

中文语料

下载链接：

https://github.com/chun19920827/corpus

下载链接

链接失效反馈

资源简介：

包含医学教科书、医学科普文章、电子病历、临床指南和专家共识以及中文维基百科等多种类型的中文医学文本数据。

This dataset encompasses a diverse array of Chinese medical texts, including medical textbooks, popular science articles in medicine, electronic medical records, clinical guidelines, expert consensus documents, and entries from the Chinese Wikipedia.

创建时间：

2021-03-15

原始信息汇总

中文医学语料库概述

数据集组成

医学教科书：13.93M
医学科普文章：455.83M
电子病历：224.72M（部分公开）
临床指南和专家共识：4.31M
中文维基百科：212.81M

数据集总大小

总计：1142.95M

下载信息

下载地址：链接
提取码：m73p

AI搜集汇总

数据集介绍

构建方式

中文医学语料库的构建采用了多源数据整合的方式，涵盖了医学教科书、医学科普文章、电子病历、临床指南和专家共识以及中文维基百科等多个领域。这些数据来源经过严格的筛选和整理，确保了数据的多样性和权威性。电子病历部分由于隐私和权限问题，仅公开了部分内容，其余数据则完整开放供研究使用。

特点

该数据集的特点在于其广泛的数据覆盖范围和高质量的内容。医学教科书和临床指南提供了权威的医学知识，医学科普文章则丰富了大众化的医学信息，电子病历为临床研究提供了宝贵的真实数据。中文维基百科的加入进一步扩展了数据集的广度，使其成为一个综合性的医学语料库。

使用方法

中文医学语料库的使用方法相对灵活，用户可以通过提供的下载链接获取数据集。数据集适用于自然语言处理、医学信息提取、临床决策支持等多个领域的研究。在使用电子病历数据时，需注意遵守相关隐私保护规定。研究者可以根据具体需求，选择性地使用不同部分的数据进行深入分析和模型训练。

背景与挑战

背景概述

中文医学语料库是一个专门针对医学领域的中文文本数据集，涵盖了医学教科书、医学科普文章、电子病历、临床指南和专家共识以及中文维基百科等多种类型的文本资源。该数据集的创建旨在为自然语言处理（NLP）技术在医学领域的应用提供丰富的语料支持，特别是在医学文本分类、信息抽取、问答系统等任务中具有重要价值。通过整合多样化的医学文本，该数据集为研究人员提供了一个全面的平台，以探索和开发更精准的医学语言模型。其构建时间可追溯至近年，主要由国内医学与计算机科学领域的跨学科团队推动，反映了医学与人工智能深度融合的趋势。

当前挑战

中文医学语料库在构建与应用过程中面临多重挑战。首先，医学领域的文本具有高度的专业性和复杂性，涉及大量医学术语和专业知识，这对模型的语义理解能力提出了极高要求。其次，电子病历等敏感数据的获取与公开存在严格的隐私保护限制，导致部分数据无法完全公开，影响了数据集的完整性和多样性。此外，医学文本的多样性和领域跨度较大，如何有效整合不同来源的文本并确保其质量一致性，也是构建过程中的一大难题。这些挑战不仅影响了数据集的构建效率，也对后续的模型训练和应用提出了更高的技术要求。

常用场景

经典使用场景

中文医学语料库广泛应用于自然语言处理领域，特别是在医学文本的语义分析、信息抽取和知识图谱构建中。研究者利用该数据集中的医学教科书、医学科普文章和电子病历等资源，训练和优化模型，以提升对复杂医学术语和语境的理解能力。

解决学术问题

该数据集有效解决了医学领域自然语言处理中的关键问题，如医学术语的标准化、病历文本的结构化处理以及医学知识的自动化抽取。通过提供丰富的医学文本资源，研究者能够开发出更精准的算法，推动医学信息学的发展。

衍生相关工作

该数据集催生了一系列经典研究工作，如基于深度学习的医学文本分类模型、医学实体识别算法以及医学问答系统的开发。这些研究不仅推动了医学自然语言处理技术的进步，也为后续的学术探索奠定了坚实基础。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

2017-2020年内蒙古当地杂豆的原料特性及生物活性物质分析数据集

参照国标对内蒙古当地的豌豆、赤小豆、绿豆、红芸豆及扁豆等五种杂豆的原料特性和生物活性物质含量进行测定，并进行对比分析。

国家农业科学数据中心收录

GetData.IO - finance - Google Search

GetData.IO -

getdata.io 收录

中国1km分辨率逐月降水量数据集（1901-2023）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2023.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录