CASIA-LM/ChineseWebText

Name: CASIA-LM/ChineseWebText
Creator: CASIA-LM
Published: 2023-11-13 01:59:09
License: 暂无描述

Hugging Face2023-11-13 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/CASIA-LM/ChineseWebText

下载链接

链接失效反馈

官方服务：

资源简介：

ChineseWebText是一个大规模高质量的中文网络文本数据集，总数据量为1.42 TB，每个文本都有一个质量评分，便于研究人员根据新的质量阈值选择数据。此外，还发布了一个更干净的600 GB中文文本子集，其质量超过90%。数据集中的每个样本包括标题、质量评分、文本内容、原始网页URL和来源域名。

提供机构：

CASIA-LM

原始信息汇总

ChineseWebText 数据集概述

数据集概览

ChineseWebText 是一个最新且规模庞大的中文数据集，包含 1.42 TB 的数据。每条文本都分配了一个质量分数，便于大型语言模型（LLM）研究人员根据新的质量阈值选择数据。
此外，还发布了一个更干净的子集，包含 600 GB 的中文文本，质量超过 90%。

数据示例

json { "title": "潍坊银行2021年上半年净利润同比增长29.57% 不良率降至1.10%_财经_中国网", "score": 0.95, "text": "潍坊银行2021年上半年净利润同比增长29.57% 不良率降至1.10% 中国网财经8月24日讯潍坊银行昨日披露2021年二季度信息报告显示，截至2021年6月末，潍坊银行资产总额1920.44亿元，较上年末增长9.34%；负债总额1789.16亿元，较上年末增长10.54%。2021年上半年，潍坊银行实现净利润6.09亿元，同比增长29.57%。资产质量方面，截至2021年6月末，潍坊银行不良贷款率1.10%，较上年末下降0.13个百分点。资本金方面，截至2021年6月末，潍坊银行资本充足率、核心一级资本充足率、一级资本充足率分别为11.66%、7.89%、10.13%，分别较上年末下降1.89、0.89、1.15个百分点。", "url": "http://finance.china.com.cn/news/special/2021bnb/20210824/5638343.shtml", "source_domain": "finance.china.com.cn" }

title: 【string】数据文本的标题。
score: 【float】由质量评估模型生成的质量分数。
text: 【string】数据样本的文本内容。
url: 【string】指向文本原始网页地址的外部URL。
source_domain: 【string】源网站的域名。

搜集汇总

数据集介绍

构建方式

在构建CASIA-LM/ChineseWebText数据集时，研究团队采用了一种高效的质量评估模型，从CommonCrawl数据中提取了大规模的高质量中文网页文本。该模型不仅对提取的文本进行了质量评分，还生成了一个包含1.42 TB数据的完整数据集，以及一个质量评分超过90%的600 GB清洁子集。这一过程确保了数据集的高质量和多样性，为后续的自然语言处理研究提供了坚实的基础。

使用方法

使用CASIA-LM/ChineseWebText数据集时，研究人员可以根据需要选择完整数据集或高质量子集。数据集中的每条文本都包含标题、质量评分、文本内容、原始网页URL以及来源域名等信息。这些详细的信息有助于研究人员进行更精确的数据筛选和分析。此外，数据集的构建工具EvalWeb也已公开，用户可以自行处理和评估其他中文网页数据，进一步扩展数据集的应用范围。

背景与挑战

背景概述

在自然语言处理领域，高质量的中文文本数据集对于训练大型语言模型（LLM）至关重要。CASIA-LM/ChineseWebText数据集由中科院自动化研究所（CASIA）的研究团队于2023年发布，旨在提供大规模、高质量的中文网络文本。该数据集包含1.42 TB的数据，每条文本均被赋予一个质量评分，便于研究人员根据新的质量阈值选择数据。此外，还提供了一个600 GB的清洁子集，其文本质量超过90%。这一数据集的发布显著推动了中文自然语言处理的研究进展，为研究人员提供了丰富的资源。

当前挑战

尽管CASIA-LM/ChineseWebText数据集在规模和质量上取得了显著成就，但其构建过程中仍面临诸多挑战。首先，从海量网络数据中提取高质量文本需要复杂的评估模型和大量的计算资源。其次，确保数据集的多样性和代表性，避免偏见和错误信息，是一个持续的挑战。此外，数据集的更新和维护，以适应不断变化的网络环境，也是一个重要的任务。这些挑战不仅影响了数据集的构建过程，也对其在实际应用中的效果提出了更高的要求。

常用场景

经典使用场景

在自然语言处理领域，CASIA-LM/ChineseWebText数据集的经典使用场景主要体现在大规模语言模型的预训练和微调过程中。该数据集以其高质量的中文文本，为研究人员提供了丰富的语料资源，使得模型能够更好地理解和生成中文内容。通过利用数据集中的质量评分，研究人员可以筛选出高质量的文本进行训练，从而提升模型的性能和泛化能力。

解决学术问题

CASIA-LM/ChineseWebText数据集解决了中文自然语言处理领域中高质量语料稀缺的问题。传统的中文数据集往往存在噪声大、质量参差不齐的缺陷，而该数据集通过引入质量评分机制，显著提升了文本的纯净度和可用性。这不仅有助于提升模型的训练效果，还为研究者提供了一个标准化的评估工具，推动了中文语言模型研究的进展。

实际应用

在实际应用中，CASIA-LM/ChineseWebText数据集被广泛应用于智能客服、机器翻译、文本生成等领域。例如，在智能客服系统中，利用该数据集训练的模型能够更准确地理解用户查询并提供高质量的回答。在机器翻译任务中，该数据集的高质量文本有助于提升翻译的准确性和流畅度。此外，文本生成模型也能从中受益，生成更加自然和连贯的中文文本。

数据集最近研究