five

IndustryCorpus_technology|行业模型训练数据集|预训练数据集数据集

收藏
huggingface2024-07-26 更新2024-12-12 收录
行业模型训练
预训练数据集
下载链接:
https://huggingface.co/datasets/BAAI/IndustryCorpus_technology
下载链接
链接失效反馈
资源简介:
该数据集是为了解决行业模型训练中数据量不足、质量低和缺乏领域专业知识的问题而构建的。通过应用22个行业数据处理操作符,从超过100TB的开放源数据集中筛选出3.4TB的高质量多行业分类的中英文预训练数据集,包括1TB的中文数据和2.4TB的英文数据。数据集进行了12种类型的标签标注,并经过了行业分类语言模型的过滤和文档级别的去重处理。数据集涵盖了18个行业类别,并针对每个行业类别提供了数据大小。为了验证数据集的性能,还进行了持续预训练、SFT和DPO训练,结果显示性能有显著提升。
提供机构:
Beijing Academy of Artificial Intelligence
创建时间:
2024-07-25
原始信息汇总

数据集概述

数据集描述

  • 语言: 中文和英文
  • 数据量: 1TB中文数据,2.4TB英文数据
  • 任务类别: 文本生成
  • 行业分类: 18个行业类别,包括医疗、教育、文学、金融、旅行、法律、体育、汽车、新闻等

数据处理

  • 数据来源: 从超过100TB的开放源数据集中筛选,包括WuDaoCorpora, BAAI-CCI, redpajama, SkyPile-150B
  • 数据处理操作: 应用22个行业数据处理操作符进行清洗和过滤
  • 规则过滤: 传统中文转换、电子邮件移除、IP地址移除、链接移除、Unicode修复等
  • 模型过滤: 使用行业分类语言模型,准确率80%
  • 数据去重: 使用MinHash文档级去重

数据标注

  • 中文数据标签: 包括字母数字比、平均行长度、语言置信度分数、最大行长度、困惑度、毒性字符比等12种标签

数据集验证

  • 模型训练: 进行了持续预训练、SFT和DPO训练
  • 性能提升: 客观性能提升20%,主观胜率82%

行业分类数据量

行业类别 数据量 (GB) 行业类别 数据量 (GB)
编程 4.1 政治 326.4
法律 274.6 数学 5.9
教育 458.1 体育 442
金融 197.8 文学 179.3
计算机科学 46.9 新闻 564.1
技术 333.6 电影与电视 162.1
旅行 82.5 医学 189.4
农业 41.6 汽车 40.8
情感 31.7 人工智能 5.6
总计 (GB) 3386.5
AI搜集汇总
数据集介绍
main_image_url
构建方式
IndustryCorpus_technology数据集的构建过程体现了对高质量行业数据的严格筛选与处理。该数据集从超过100TB的开源数据集中,通过22种行业数据处理算子,清洗和过滤出3.4TB的高质量多行业分类中英文预训练数据。具体而言,中文数据经过12种标签的标注,包括字母数字比例、平均行长度、语言置信度分数等,以确保数据的多样性和专业性。此外,数据集还采用了基于模型的过滤和文档级去重技术,进一步提升了数据的质量和独特性。
特点
IndustryCorpus_technology数据集的特点在于其广泛覆盖的行业类别和精细的数据标注。该数据集涵盖了18个行业类别,包括医疗、教育、文学、金融等,每个类别的数据量均经过精确统计。中文数据部分特别标注了多种语言特征,如字母数字比例、语言置信度分数等,这些标注为模型训练提供了丰富的特征信息。此外,数据集通过规则和模型双重过滤,确保了数据的高质量和低噪声,为行业模型的训练提供了坚实的基础。
使用方法
IndustryCorpus_technology数据集的使用方法灵活多样,适用于多种自然语言处理任务。用户可以根据需要下载特定行业的子数据集,如技术行业子集,进行针对性的模型训练。数据集的标注信息可以直接用于模型的特征提取和优化。此外,数据集的结构化设计便于集成到现有的机器学习流程中,支持从预训练到微调的全流程应用。通过这种方式,用户可以充分利用数据集的高质量数据,提升行业模型的性能和适应性。
背景与挑战
背景概述
IndustryCorpus_technology数据集是近年来为应对行业模型训练中数据质量与数量不足的问题而构建的高质量多行业分类预训练数据集。该数据集由多个开源数据集(如WuDaoCorpora、BAAI-CCI等)经过22种行业数据处理操作符的清洗与过滤,最终形成了3.4TB的中英文数据,其中中文数据1TB,英文数据2.4TB。数据集涵盖了医疗、教育、金融、法律等18个行业类别,旨在提升大模型在行业应用中的性能。通过持续预训练、SFT和DPO训练,该数据集在医疗行业示范模型上表现出显著的性能提升,客观性能提高了20%,主观胜率达到82%。
当前挑战
IndustryCorpus_technology数据集在构建过程中面临多重挑战。首先,行业数据的多样性与复杂性使得数据清洗与过滤变得极为困难,需通过规则与模型结合的方式去除噪声数据,如传统中文转换、邮件地址删除等。其次,数据标注的准确性直接影响模型训练效果,需对中文数据进行12种标签的精细标注,包括字母数字比例、语言置信度等。此外,数据去重与行业分类的准确性也是关键挑战,需采用MinHash文档级去重与行业分类语言模型,确保数据质量与行业相关性。这些挑战的解决为行业模型的训练与应用奠定了坚实基础。
常用场景
经典使用场景
IndustryCorpus_technology数据集在自然语言处理领域,尤其是文本生成任务中,展现了其独特的价值。该数据集通过整合多行业的中英文语料,为研究者提供了一个丰富且高质量的资源库,特别适用于训练和优化行业特定的大型语言模型。其多标签标注系统进一步增强了数据集的实用性,使得模型训练更加精准和高效。
衍生相关工作
基于IndustryCorpus_technology数据集,研究者们已经开发出一系列创新的应用和模型。这些工作不仅推动了自然语言处理技术的发展,也为行业智能化提供了新的解决方案。例如,结合该数据集训练的模型在自动文本生成、情感分析等任务中取得了突破性进展,为相关领域的研究和应用开辟了新的道路。
数据集最近研究
最新研究方向
在工业智能化转型的背景下,高质量行业数据的需求日益增长。IndustryCorpus_technology数据集作为多行业分类的中英文预训练数据集,其最新研究方向聚焦于如何通过精细化的数据处理和标注技术,进一步提升大模型在特定行业应用中的性能。当前研究热点包括基于规则和模型的双重过滤机制,以及通过持续预训练、SFT和DPO训练等方法验证数据集的有效性。这些研究不仅显著提升了模型在医疗等行业的客观性能,还为其他行业的智能化应用提供了宝贵的数据支持。此外,数据集的行业分类和标注信息为研究者提供了丰富的实验素材,推动了行业模型在实际应用中的落地与优化。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

WorldClim

WorldClim是一个全球气候数据集,提供了全球范围内的气候数据,包括温度、降水、生物气候变量等。数据集的分辨率从30秒到10分钟不等,适用于各种尺度的气候分析和建模。

www.worldclim.org 收录

NIST Thermochemical Database

NIST Thermochemical Database(NIST热化学数据库)是一个包含大量热化学数据的数据集,涵盖了各种化学物质的热力学性质,如焓、熵、自由能等。该数据库由美国国家标准与技术研究院(NIST)维护,旨在为科学研究和工业应用提供准确的热化学数据。

webbook.nist.gov 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录