IndustryCorpus_agriculture|农业数据集|预训练数据集数据集
收藏huggingface2024-07-26 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/BAAI/IndustryCorpus_agriculture
下载链接
链接失效反馈资源简介:
该数据集是通过应用22个行业数据处理操作符,从超过100TB的开放源数据集中筛选出的3.4TB高质量多行业分类的中英文预训练数据集。筛选后的数据包括1TB的中文数据和2.4TB的英文数据,并进行了12种类型的标签标注。数据集涵盖18个行业类别,包括医疗、教育、文学、金融等,并提供了各行业类别的数据大小。
提供机构:
Beijing Academy of Artificial Intelligence
创建时间:
2024-07-25
原始信息汇总
数据集概述
数据集描述
- 语言: 中文和英文
- 数据量: 1TB中文数据,2.4TB英文数据
- 任务类别: 文本生成
- 行业分类: 18个行业类别,包括医疗、教育、文学、金融、旅游、法律、体育、汽车、新闻等
数据处理
- 数据来源: 从超过100TB的开放源数据集中筛选,包括WuDaoCorpora, BAAI-CCI, redpajama, SkyPile-150B
- 数据处理操作: 应用22个行业数据处理操作符进行清洗和过滤
- 规则过滤: 传统中文转换、电子邮件移除、IP地址移除、链接移除、Unicode修复等
- 模型过滤: 行业分类语言模型,准确率80%
- 数据去重: MinHash文档级去重
数据标注
- 中文数据标注: 12种标签,包括字母数字比、平均行长度、语言置信度分数、最大行长度、困惑度等
数据集性能验证
- 验证方法: 在医疗行业示范模型上进行持续预训练、SFT和DPO训练
- 性能提升: 客观性能提升20%,主观胜率82%
行业分类数据量
| 行业类别 | 数据量 (GB) | 行业类别 | 数据量 (GB) |
|---|---|---|---|
| 编程 | 4.1 | 政治 | 326.4 |
| 法律 | 274.6 | 数学 | 5.9 |
| 教育 | 458.1 | 体育 | 442 |
| 金融 | 197.8 | 文学 | 179.3 |
| 计算机科学 | 46.9 | 新闻 | 564.1 |
| 技术 | 333.6 | 影视 | 162.1 |
| 旅游 | 82.5 | 医疗 | 189.4 |
| 农业 | 41.6 | 汽车 | 40.8 |
| 情感 | 31.7 | 人工智能 | 5.6 |
| 总计 (GB) | 3386.5 |
AI搜集汇总
数据集介绍

构建方式
IndustryCorpus_agriculture数据集的构建基于对超过100TB的开源数据集(如WuDaoCorpora、BAAI-CCI等)的深度处理。通过应用22种行业数据处理算子,对原始数据进行清洗和过滤,最终筛选出3.4TB的高质量多行业分类中英文预训练数据。其中,中文数据经过12种标签的标注,包括字母数字比例、平均行长度等,以确保数据的多样性和专业性。
特点
该数据集涵盖了18个行业类别,包括农业、医疗、教育等,数据总量达到3.4TB,其中中文数据1TB,英文数据2.4TB。数据集通过规则和模型双重过滤,确保数据的纯净性和行业相关性。中文数据还包含丰富的标签信息,如语言置信度得分、困惑度等,为模型训练提供了多维度的参考。
使用方法
用户可通过HuggingFace平台下载该数据集,并根据需求选择特定行业的子数据集进行使用。数据集已按行业分类,便于用户快速定位所需数据。此外,数据集支持多种预训练任务,如文本生成、行业分类等,用户可根据具体任务进行模型训练和验证。
背景与挑战
背景概述
IndustryCorpus_agriculture数据集诞生于2023年,由国内顶尖研究机构联合构建,旨在解决行业大模型训练中数据质量不足的痛点。该数据集基于WuDaoCorpora、BAAI-CCI等开源数据集,运用22种行业数据处理算子,从100TB原始数据中筛选出3.4TB高质量多行业分类中英文预训练数据。特别针对农业领域,该子集包含41.6GB精炼数据,涵盖12种专业标注维度,为农业智能化转型提供了坚实的数据基础。通过医学行业示范模型的验证,该数据集使模型客观性能提升20%,主观胜率达82%,显著推动了行业大模型的发展。
当前挑战
构建IndustryCorpus_agriculture数据集面临多重挑战。在领域问题层面,农业领域文本具有专业术语密集、地域特征显著等特点,传统自然语言处理模型难以准确理解和处理。数据构建过程中,需克服原始数据质量参差不齐、噪声干扰严重等问题。研究团队通过开发行业分类语言模型(准确率达80%)、实施MinHash文档级去重等创新方法,有效解决了数据清洗、领域分类和去重等关键技术难题。同时,为确保数据可用性,团队设计了12种专业标注维度,包括字母数字比、语言置信度等,这一过程对数据处理技术提出了极高要求。
常用场景
经典使用场景
在农业领域,IndustryCorpus_agriculture数据集被广泛应用于农业知识问答系统、农业政策分析工具以及农业技术推广平台的开发。通过该数据集,研究人员能够训练出能够理解和生成农业相关文本的模型,从而提升农业信息服务的智能化水平。
解决学术问题
该数据集解决了农业领域文本数据稀缺、质量参差不齐的问题,为农业领域的自然语言处理研究提供了高质量的训练数据。通过提供丰富的农业相关文本,该数据集支持了农业知识图谱构建、农业文本分类和农业信息抽取等研究任务,推动了农业智能化的发展。
衍生相关工作
基于IndustryCorpus_agriculture数据集,研究人员开发了多个农业领域的自然语言处理模型,如农业文本分类模型、农业知识问答系统和农业信息抽取工具。这些模型和工具在农业信息化和智能化中发挥了重要作用,推动了农业领域的数字化转型。
以上内容由AI搜集并总结生成



