five

IndustryCorpus_medicine

收藏
Hugging Face2024-07-26 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/BAAI/IndustryCorpus_medicine
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是为了解决行业模型训练中数据量不足、质量低和缺乏领域专业知识的问题而构建的。通过应用22个行业数据处理操作符,从超过100TB的开放源数据集中筛选出3.4TB的高质量多行业分类中英文预训练数据集。数据集包括1TB的中文数据和2.4TB的英文数据,并对中文数据进行了12种类型的标签标注。此外,数据集涵盖了18个行业类别,并通过模型和规则基础的过滤方法进行了处理。数据集的大小和行业分类数据大小也在描述中详细列出。
提供机构:
Beijing Academy of Artificial Intelligence
创建时间:
2024-07-25
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache-2.0
  • 语言: 中文, 英文
  • 数据量: 1TB 中文, 2.4TB 英文
  • 任务类别: 文本生成

数据来源与处理

  • 原始数据量: 超过 100TB 的开源数据集,包括 WuDaoCorpora, BAAI-CCI, redpajama, SkyPile-150B
  • 处理后数据量: 3.4TB 高质量多行业分类中英文预训练数据集
  • 数据处理操作: 22 个行业数据处理操作符,用于清洗和过滤数据
  • 数据去重: MinHash 文档级去重
  • 模型分类: 行业分类语言模型,准确率 80%

数据标签

  • 中文数据标签: 包括字母数字比、平均行长度、语言置信度分数、最大行长度、困惑度、毒性字符比等 12 种标签

行业分类数据量

  • 行业类别: 18 个类别,包括医疗、教育、文学、金融、旅游、法律、体育、汽车、新闻等
  • 具体数据量:
    • 编程: 4.1 GB
    • 法律: 274.6 GB
    • 教育: 458.1 GB
    • 金融: 197.8 GB
    • 计算机科学: 46.9 GB
    • 技术: 333.6 GB
    • 旅游: 82.5 GB
    • 农业: 41.6 GB
    • 情感: 31.7 GB
    • 人工智能: 5.6 GB
    • 政治: 326.4 GB
    • 数学: 5.9 GB
    • 体育: 442 GB
    • 文学: 179.3 GB
    • 新闻: 564.1 GB
    • 电影与电视: 162.1 GB
    • 医学: 189.4 GB
    • 汽车: 40.8 GB
    • 总计: 3386.5 GB

数据集应用

  • 模型训练: 进行了持续预训练、SFT 和 DPO 训练,验证了数据集的性能,客观性能提升 20%,主观胜率 82%
  • 数据集分割: 将大型数据集分割成 18 个行业的子数据集,当前为医疗行业子数据集
搜集汇总
数据集介绍
main_image_url
构建方式
IndustryCorpus_medicine数据集的构建过程体现了对高质量行业数据的严格筛选与处理。该数据集从超过100TB的开源数据集中,通过22种行业数据处理算子,筛选出3.4TB的高质量多行业分类中英文预训练数据。具体操作包括传统中文转换、电子邮件移除、IP地址移除、链接移除、Unicode修复等规则过滤,以及基于行业分类语言模型的过滤,确保数据的专业性与准确性。此外,采用MinHash文档级去重技术,进一步提升了数据的纯净度。
特点
IndustryCorpus_medicine数据集以其丰富的数据量和精细的标注体系脱颖而出。该数据集包含1TB中文数据和2.4TB英文数据,涵盖了18个行业类别,其中医学行业数据量达189.4GB。中文数据标注了12种标签,包括字母数字比例、平均行长度、语言置信度分数、最大行长度和困惑度等,为模型训练提供了多维度的参考信息。数据集的高质量与多样性使其在行业模型训练中表现出色,尤其在医学领域的应用效果显著。
使用方法
IndustryCorpus_medicine数据集的使用方法灵活多样,适用于多种自然语言处理任务。用户可以根据需求下载医学行业的子数据集,进行预训练、微调(SFT)或直接偏好优化(DPO)等训练任务。数据集的分割设计便于用户按需获取特定行业数据,减少存储与计算资源的消耗。此外,数据集的丰富标注信息为模型性能评估提供了有力支持,用户可通过这些标注进一步优化模型训练策略,提升模型在医学领域的表现。
背景与挑战
背景概述
IndustryCorpus_medicine数据集是在推动企业智能化转型和创新发展背景下应运而生的。该数据集由多个研究机构联合构建,旨在解决行业模型训练中普遍存在的数据量不足、质量低下以及缺乏领域专业知识等问题。通过对超过100TB的开源数据集(如WuDaoCorpora、BAAI-CCI等)进行清洗和过滤,研究人员成功提取了3.4TB的高质量多行业分类中英文预训练数据,其中医学行业数据占比显著。该数据集的构建不仅提升了行业模型的性能,还为医学领域的自然语言处理任务提供了强有力的支持。
当前挑战
IndustryCorpus_medicine数据集在构建过程中面临多重挑战。首先,数据清洗和过滤的复杂性极高,需应用22种行业数据处理算子以确保数据的质量和领域相关性。其次,数据标注工作繁琐,中文数据需标注12种不同类型的标签,如字母数字比例、语言置信度等,这对标注的准确性和一致性提出了严格要求。此外,数据去重和行业分类模型的构建也面临技术难题,需确保80%以上的分类准确率。最后,如何在保证数据多样性的同时,避免引入噪声数据,也是该数据集构建中的一大挑战。
常用场景
经典使用场景
IndustryCorpus_medicine数据集在医疗领域的自然语言处理任务中展现了其独特的价值。该数据集通过高质量的中英文医疗文本,支持了从文本生成到医疗问答系统的多种应用。特别是在医疗文本的预处理和模型训练中,该数据集提供了丰富的语料资源,使得模型能够更好地理解和生成医疗相关的专业内容。
衍生相关工作
基于IndustryCorpus_medicine数据集,许多研究工作得以展开,包括但不限于医疗文本的自动摘要、疾病预测模型的构建以及医疗问答系统的开发。这些研究不仅推动了医疗领域自然语言处理技术的发展,也为医疗行业的智能化转型提供了强有力的数据支持。
数据集最近研究
最新研究方向
在医疗领域,IndustryCorpus_medicine数据集的最新研究方向聚焦于如何通过高质量的多语言预训练数据提升医疗行业模型的性能。随着医疗信息化的快速发展,医疗文本数据的处理和分析成为推动智能医疗应用的关键。该数据集通过22种行业数据处理算子对超过100TB的开源数据进行清洗和过滤,最终构建了包含1TB中文和2.4TB英文的高质量医疗行业预训练数据。研究表明,基于该数据集的医疗行业模型在持续预训练、SFT和DPO训练后,客观性能提升了20%,主观胜率达到82%。这一成果不仅为医疗文本生成、疾病诊断辅助等应用提供了强有力的数据支持,也为跨语言医疗信息的智能化处理开辟了新的研究方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作