ChineseWebText 2.0

Name: ChineseWebText 2.0
Creator: 中国科学院自动化研究所
Published: 2024-11-29 20:48:49
License: 暂无描述

arXiv2024-11-29 更新2024-12-03 收录

下载链接：

https://github.com/CASIA-LM/ChineseWebText-2.0

下载链接

链接失效反馈

官方服务：

资源简介：

ChineseWebText 2.0是由中国科学院自动化研究所创建的大规模高质量中文网络文本数据集，包含3.8TB的数据。该数据集通过多维度和细粒度信息标注，每条文本都附有质量评分、领域标签、毒性标签和毒性评分。数据集的创建过程包括手工规则过滤、质量评估模型、领域分类器和毒性评估模型的应用。该数据集旨在支持大语言模型（LLM）的研究，特别是针对特定领域能力和安全性的提升。

ChineseWebText 2.0 is a large-scale high-quality Chinese web text dataset developed by the Institute of Automation, Chinese Academy of Sciences, with a total data volume of 3.8 TB. It adopts multi-dimensional and fine-grained information annotation, where each text sample is attached with a quality score, domain label, toxicity label and toxicity score. The dataset construction pipeline includes the application of manual rule filtering, quality assessment models, domain classifiers and toxicity assessment models. This dataset aims to support research on large language models (LLMs), particularly the enhancement of domain-specific capabilities and safety performance.

提供机构：

中国科学院自动化研究所

创建时间：

2024-11-29

搜集汇总

数据集介绍

构建方式

ChineseWebText 2.0数据集的构建采用了多维度和细粒度的信息处理工具链，称为MDFG-tool。首先，通过手工制定的规则从原始内容中剔除显性的噪声文本。接着，设计了质量评估模型、领域分类器和毒性评估模型，分别对剩余的清洗数据进行评估。最终，将这三类细粒度信息整合到每一条文本中。这一方法确保了数据集的高质量和细粒度标注，使得每条文本都附带质量评分、领域标签、毒性标签和毒性评分。

使用方法

研究人员可以使用ChineseWebText 2.0数据集来训练和评估大型语言模型（LLMs）。通过利用数据集中的质量评分、领域标签、毒性标签和毒性评分，研究人员可以筛选出符合特定质量标准、领域需求和安全要求的数据子集。此外，数据集的毒性标注子集可以用于增强语言模型的毒性评估能力和安全性。数据、代码和工具链均可在指定网站上获取，便于研究人员进行深入研究和应用。

背景与挑战

背景概述

随着大规模语言模型（LLMs）的快速发展，预训练数据在塑造模型能力方面发挥着关键作用。近年来，多个大规模高质量的预训练数据集被发布，以加速LLMs的研究，其中包括ChineseWebText1.0、C4、Pile、WanJuan、MAPCC等。然而，随着LLMs的不断演进，研究焦点逐渐转向领域特定能力和安全性问题，使得先前的粗粒度文本不足以满足训练需求。此外，细粒度信息如质量、领域和毒性在构建强大且可靠的LLMs中变得愈发重要。为应对这些挑战，本文提出了一种新的工具链MDFG-tool，用于构建具有多维度和细粒度信息的大规模高质量中文数据集。

当前挑战

ChineseWebText 2.0数据集面临的挑战主要包括：1) 解决领域特定能力和安全性问题，这要求数据集不仅包含高质量文本，还需具备细粒度的质量、领域和毒性标注；2) 构建过程中遇到的挑战，如从原始内容中剔除显性噪声文本、设计质量评估模型、领域分类器和毒性评估模型，以及整合这些细粒度信息。这些挑战需要创新的方法和工具链来确保数据集的高质量和多维度信息的准确性。

常用场景

经典使用场景

ChineseWebText 2.0 数据集在构建大规模语言模型（LLMs）的预训练过程中发挥了关键作用。其经典使用场景包括为LLMs提供高质量的中文网络文本，这些文本经过多维度精细信息标注，如质量评分、领域标签、毒性标签和毒性评分。这些精细标注的信息使得研究人员能够根据具体需求筛选数据，从而优化模型的性能和安全性。

解决学术问题

ChineseWebText 2.0 数据集解决了在LLMs训练中常见的数据质量问题，特别是粗粒度文本无法满足日益增长的领域特定能力和安全性需求的问题。通过提供多维度精细信息标注，该数据集显著提升了LLMs在特定领域的能力和安全性，为学术研究提供了更为可靠和高效的数据基础。

实际应用

在实际应用中，ChineseWebText 2.0 数据集被广泛用于开发和优化中文语言模型，特别是在需要高精度和安全性的场景中，如智能客服、内容审核和自动翻译等。其精细标注的信息帮助模型在处理特定领域任务时表现更为出色，同时减少了生成有害内容的风险。

数据集最近研究