IndustryCorpus_film
收藏Hugging Face2024-07-26 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/BAAI/IndustryCorpus_film
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是为了解决行业模型训练数据集存在的问题,通过构建22个行业数据处理操作符,从超过100TB的开放源数据集中筛选出3.4TB的高质量多行业分类中英文预训练数据集。筛选后的数据包含1TB的中文数据和2.4TB的英文数据,并对中文数据进行了12种类型的标签标注。数据集涵盖18个行业类别,包括医疗、教育、文学、金融等,并详细列出了每个行业的数据大小。为了用户方便,数据集被分割成18个行业的子数据集,当前描述的是电影行业的子数据集。
提供机构:
Beijing Academy of Artificial Intelligence
创建时间:
2024-07-25
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 语言: 中文, 英文
- 数据量: 超过1TB
- 任务类别: 文本生成
数据集构建
- 原始数据: 从超过100TB的开放源数据集中筛选,包括WuDaoCorpora, BAAI-CCI, redpajama, SkyPile-150B等。
- 处理操作: 应用22种行业数据处理操作进行清洗和过滤。
- 数据分布: 1TB中文数据,2.4TB英文数据。
- 标注信息: 中文数据包含12种标签,如字母数字比、平均行长度、语言置信度分数、最大行长度和困惑度等。
数据验证
- 模型训练: 在医疗行业示范模型上进行持续预训练、SFT和DPO训练。
- 性能提升: 客观性能提升20%,主观胜率82%。
行业分类
- 行业类别: 包括医疗、教育、文学、金融、旅行、法律、体育、汽车、新闻等18个类别。
- 规则过滤: 传统中文转换、电子邮件移除、IP地址移除、链接移除、Unicode修复等。
- 模型过滤: 行业分类语言模型,准确率80%。
- 数据去重: MinHash文档级去重。
数据大小
- 中文数据: 1TB
- 英文数据: 2.4TB
行业分类数据大小
| 行业类别 | 数据大小 (GB) | 行业类别 | 数据大小 (GB) |
|---|---|---|---|
| 编程 | 4.1 | 政治 | 326.4 |
| 法律 | 274.6 | 数学 | 5.9 |
| 教育 | 458.1 | 体育 | 442 |
| 金融 | 197.8 | 文学 | 179.3 |
| 计算机科学 | 46.9 | 新闻 | 564.1 |
| 技术 | 333.6 | 影视 | 162.1 |
| 旅行 | 82.5 | 医学 | 189.4 |
| 农业 | 41.6 | 汽车 | 40.8 |
| 情感 | 31.7 | 人工智能 | 5.6 |
| 总计 (GB) | 3386.5 |
数据处理流程
- 数据处理流程图: 提供了一个数据处理流程图。
搜集汇总
数据集介绍

构建方式
IndustryCorpus_film数据集的构建过程体现了对高质量行业数据的追求。通过对超过100TB的开源数据集进行清洗和过滤,研究人员应用了22种行业数据处理算子,最终从WuDaoCorpora、BAAI-CCI、redpajama和SkyPile-150B等数据源中提取了3.4TB的高质量多行业分类中英文预训练数据。中文数据经过12种标签的标注,包括字母数字比例、平均行长度、语言置信度分数等,确保了数据的专业性和可用性。
特点
IndustryCorpus_film数据集以其丰富的行业分类和精细的数据处理著称。该数据集涵盖了18个行业类别,包括医疗、教育、文学、金融等,每个类别都有明确的数据量统计。数据集通过规则过滤和模型过滤相结合的方式,确保了数据的纯净度和专业性。中文数据还特别标注了多种语言特征,如字母数字比例、语言置信度分数等,为模型训练提供了多维度的参考。
使用方法
IndustryCorpus_film数据集的使用方法灵活多样,适用于多种自然语言处理任务。用户可以根据需求选择特定行业的数据子集进行下载和使用,如当前的电影行业子集。数据集支持继续预训练、SFT(监督微调)和DPO(数据并行优化)等多种训练方式。通过实际验证,使用该数据集进行训练的模型在客观性能上提升了20%,主观胜率达到了82%,展现了其在行业模型训练中的显著效果。
背景与挑战
背景概述
IndustryCorpus_film数据集是近年来为应对行业模型训练中数据质量不足、领域专业知识匮乏等问题而构建的高质量多行业分类预训练数据集。该数据集由多个开源数据集(如WuDaoCorpora、BAAI-CCI、redpajama和SkyPile-150B)经过22种行业数据处理操作符的清洗和过滤,最终从超过100TB的原始数据中提取出3.4TB的高质量中英文数据。数据集涵盖了18个行业类别,包括医疗、教育、文学、金融、旅游、法律、体育、汽车、新闻等,其中中文数据经过12种标签的标注,如字母数字比例、平均行长度、语言置信度分数等。该数据集的构建旨在提升行业模型的性能,推动企业智能化转型与创新发展。
当前挑战
IndustryCorpus_film数据集在构建过程中面临多重挑战。首先,原始数据来源广泛且质量参差不齐,如何高效清洗和过滤出高质量数据成为首要难题。其次,行业数据的多样性和专业性要求数据处理操作符具备高度的领域适应性,以确保数据的准确性和实用性。此外,数据标注的复杂性也带来了挑战,尤其是中文数据的多维度标注需要兼顾效率和精度。最后,数据去重和行业分类的准确性直接影响模型的训练效果,如何在保证数据多样性的同时避免冗余信息,是数据集构建中的另一大挑战。这些问题的解决不仅提升了数据集的质量,也为行业模型的训练和应用奠定了坚实基础。
常用场景
经典使用场景
在电影与电视产业中,IndustryCorpus_film数据集被广泛应用于文本生成任务,特别是在剧本创作、电影评论分析和影视内容推荐系统中。该数据集通过提供高质量的中英文电影相关文本,支持模型在理解电影行业特定语言和风格方面表现出色。
解决学术问题
IndustryCorpus_film数据集解决了电影产业中文本数据稀缺、质量参差不齐的问题。通过提供经过严格筛选和标注的电影行业文本,该数据集显著提升了模型在电影相关任务中的表现,如情感分析、主题识别和内容生成,为学术研究提供了坚实的基础。
衍生相关工作
基于IndustryCorpus_film数据集,研究人员开发了多种先进的自然语言处理模型,如电影评论情感分析模型和剧本生成模型。这些模型在电影产业中的应用,不仅推动了相关技术的发展,也为电影创作和市场营销提供了新的视角和工具。
以上内容由遇见数据集搜集并总结生成



