IndustryCorpus_medicine

Name: IndustryCorpus_medicine
Creator: Beijing Academy of Artificial Intelligence
Published: 2024-07-26 10:30:48
License: 暂无描述

Hugging Face2024-07-26 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/BAAI/IndustryCorpus_medicine

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为了解决行业模型训练中数据量不足、质量低和缺乏领域专业知识的问题而构建的。通过应用22个行业数据处理操作符，从超过100TB的开放源数据集中筛选出3.4TB的高质量多行业分类中英文预训练数据集。数据集包括1TB的中文数据和2.4TB的英文数据，并对中文数据进行了12种类型的标签标注。此外，数据集涵盖了18个行业类别，并通过模型和规则基础的过滤方法进行了处理。数据集的大小和行业分类数据大小也在描述中详细列出。

提供机构：

Beijing Academy of Artificial Intelligence

创建时间：

2024-07-25

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
语言: 中文, 英文
数据量: 1TB 中文, 2.4TB 英文
任务类别: 文本生成

数据来源与处理

原始数据量: 超过 100TB 的开源数据集，包括 WuDaoCorpora, BAAI-CCI, redpajama, SkyPile-150B
处理后数据量: 3.4TB 高质量多行业分类中英文预训练数据集
数据处理操作: 22 个行业数据处理操作符，用于清洗和过滤数据
数据去重: MinHash 文档级去重
模型分类: 行业分类语言模型，准确率 80%

数据标签

中文数据标签: 包括字母数字比、平均行长度、语言置信度分数、最大行长度、困惑度、毒性字符比等 12 种标签

行业分类数据量

行业类别: 18 个类别，包括医疗、教育、文学、金融、旅游、法律、体育、汽车、新闻等
具体数据量:
- 编程: 4.1 GB
- 法律: 274.6 GB
- 教育: 458.1 GB
- 金融: 197.8 GB
- 计算机科学: 46.9 GB
- 技术: 333.6 GB
- 旅游: 82.5 GB
- 农业: 41.6 GB
- 情感: 31.7 GB
- 人工智能: 5.6 GB
- 政治: 326.4 GB
- 数学: 5.9 GB
- 体育: 442 GB
- 文学: 179.3 GB
- 新闻: 564.1 GB
- 电影与电视: 162.1 GB
- 医学: 189.4 GB
- 汽车: 40.8 GB
- 总计: 3386.5 GB

数据集应用

模型训练: 进行了持续预训练、SFT 和 DPO 训练，验证了数据集的性能，客观性能提升 20%，主观胜率 82%
数据集分割: 将大型数据集分割成 18 个行业的子数据集，当前为医疗行业子数据集

搜集汇总

数据集介绍

构建方式

IndustryCorpus_medicine数据集的构建过程体现了对高质量行业数据的严格筛选与处理。该数据集从超过100TB的开源数据集中，通过22种行业数据处理算子，筛选出3.4TB的高质量多行业分类中英文预训练数据。具体操作包括传统中文转换、电子邮件移除、IP地址移除、链接移除、Unicode修复等规则过滤，以及基于行业分类语言模型的过滤，确保数据的专业性与准确性。此外，采用MinHash文档级去重技术，进一步提升了数据的纯净度。

特点

IndustryCorpus_medicine数据集以其丰富的数据量和精细的标注体系脱颖而出。该数据集包含1TB中文数据和2.4TB英文数据，涵盖了18个行业类别，其中医学行业数据量达189.4GB。中文数据标注了12种标签，包括字母数字比例、平均行长度、语言置信度分数、最大行长度和困惑度等，为模型训练提供了多维度的参考信息。数据集的高质量与多样性使其在行业模型训练中表现出色，尤其在医学领域的应用效果显著。

使用方法

IndustryCorpus_medicine数据集的使用方法灵活多样，适用于多种自然语言处理任务。用户可以根据需求下载医学行业的子数据集，进行预训练、微调（SFT）或直接偏好优化（DPO）等训练任务。数据集的分割设计便于用户按需获取特定行业数据，减少存储与计算资源的消耗。此外，数据集的丰富标注信息为模型性能评估提供了有力支持，用户可通过这些标注进一步优化模型训练策略，提升模型在医学领域的表现。

背景与挑战

背景概述

IndustryCorpus_medicine数据集是在推动企业智能化转型和创新发展背景下应运而生的。该数据集由多个研究机构联合构建，旨在解决行业模型训练中普遍存在的数据量不足、质量低下以及缺乏领域专业知识等问题。通过对超过100TB的开源数据集（如WuDaoCorpora、BAAI-CCI等）进行清洗和过滤，研究人员成功提取了3.4TB的高质量多行业分类中英文预训练数据，其中医学行业数据占比显著。该数据集的构建不仅提升了行业模型的性能，还为医学领域的自然语言处理任务提供了强有力的支持。

当前挑战

IndustryCorpus_medicine数据集在构建过程中面临多重挑战。首先，数据清洗和过滤的复杂性极高，需应用22种行业数据处理算子以确保数据的质量和领域相关性。其次，数据标注工作繁琐，中文数据需标注12种不同类型的标签，如字母数字比例、语言置信度等，这对标注的准确性和一致性提出了严格要求。此外，数据去重和行业分类模型的构建也面临技术难题，需确保80%以上的分类准确率。最后，如何在保证数据多样性的同时，避免引入噪声数据，也是该数据集构建中的一大挑战。

常用场景

经典使用场景

IndustryCorpus_medicine数据集在医疗领域的自然语言处理任务中展现了其独特的价值。该数据集通过高质量的中英文医疗文本，支持了从文本生成到医疗问答系统的多种应用。特别是在医疗文本的预处理和模型训练中，该数据集提供了丰富的语料资源，使得模型能够更好地理解和生成医疗相关的专业内容。

衍生相关工作

基于IndustryCorpus_medicine数据集，许多研究工作得以展开，包括但不限于医疗文本的自动摘要、疾病预测模型的构建以及医疗问答系统的开发。这些研究不仅推动了医疗领域自然语言处理技术的发展，也为医疗行业的智能化转型提供了强有力的数据支持。

数据集最近研究