five

CASIA-LM/ChineseWebText|自然语言处理数据集|预训练数据集数据集

收藏
hugging_face2023-11-13 更新2024-03-04 收录
自然语言处理
预训练数据集
下载链接:
https://hf-mirror.com/datasets/CASIA-LM/ChineseWebText
下载链接
链接失效反馈
资源简介:
ChineseWebText是一个大规模高质量的中文网络文本数据集,总数据量为1.42 TB,每个文本都有一个质量评分,便于研究人员根据新的质量阈值选择数据。此外,还发布了一个更干净的600 GB中文文本子集,其质量超过90%。数据集中的每个样本包括标题、质量评分、文本内容、原始网页URL和来源域名。

ChineseWebText是一个大规模高质量的中文网络文本数据集,总数据量为1.42 TB,每个文本都有一个质量评分,便于研究人员根据新的质量阈值选择数据。此外,还发布了一个更干净的600 GB中文文本子集,其质量超过90%。数据集中的每个样本包括标题、质量评分、文本内容、原始网页URL和来源域名。
提供机构:
CASIA-LM
原始信息汇总

ChineseWebText 数据集概述

数据集概览

  • ChineseWebText 是一个最新且规模庞大的中文数据集,包含 1.42 TB 的数据。每条文本都分配了一个质量分数,便于大型语言模型(LLM)研究人员根据新的质量阈值选择数据。
  • 此外,还发布了一个更干净的子集,包含 600 GB 的中文文本,质量超过 90%

数据示例

json { "title": "潍坊银行2021年上半年净利润同比增长29.57% 不良率降至1.10%_财经_中国网", "score": 0.95, "text": "潍坊银行2021年上半年净利润同比增长29.57% 不良率降至1.10% 中国网财经8月24日讯 潍坊银行昨日披露2021年二季度信息报告显示,截至2021年6月末,潍坊银行资产总额1920.44亿元,较上年末增长9.34%;负债总额1789.16亿元,较上年末增长10.54%。2021年上半年,潍坊银行实现净利润6.09亿元,同比增长29.57%。 资产质量方面,截至2021年6月末,潍坊银行不良贷款率1.10%,较上年末下降0.13个百分点。 资本金方面,截至2021年6月末,潍坊银行资本充足率、核心一级资本充足率、一级资本充足率分别为11.66%、7.89%、10.13%,分别较上年末下降1.89、0.89、1.15个百分点。", "url": "http://finance.china.com.cn/news/special/2021bnb/20210824/5638343.shtml", "source_domain": "finance.china.com.cn" }

  • title: 【string】数据文本的标题。
  • score: 【float】由质量评估模型生成的质量分数。
  • text: 【string】数据样本的文本内容。
  • url: 【string】指向文本原始网页地址的外部URL。
  • source_domain: 【string】源网站的域名。
AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建CASIA-LM/ChineseWebText数据集时,研究团队采用了一种高效的质量评估模型,从CommonCrawl数据中提取了大规模的高质量中文网页文本。该模型不仅对提取的文本进行了质量评分,还生成了一个包含1.42 TB数据的完整数据集,以及一个质量评分超过90%的600 GB清洁子集。这一过程确保了数据集的高质量和多样性,为后续的自然语言处理研究提供了坚实的基础。
使用方法
使用CASIA-LM/ChineseWebText数据集时,研究人员可以根据需要选择完整数据集或高质量子集。数据集中的每条文本都包含标题、质量评分、文本内容、原始网页URL以及来源域名等信息。这些详细的信息有助于研究人员进行更精确的数据筛选和分析。此外,数据集的构建工具EvalWeb也已公开,用户可以自行处理和评估其他中文网页数据,进一步扩展数据集的应用范围。
背景与挑战
背景概述
在自然语言处理领域,高质量的中文文本数据集对于训练大型语言模型(LLM)至关重要。CASIA-LM/ChineseWebText数据集由中科院自动化研究所(CASIA)的研究团队于2023年发布,旨在提供大规模、高质量的中文网络文本。该数据集包含1.42 TB的数据,每条文本均被赋予一个质量评分,便于研究人员根据新的质量阈值选择数据。此外,还提供了一个600 GB的清洁子集,其文本质量超过90%。这一数据集的发布显著推动了中文自然语言处理的研究进展,为研究人员提供了丰富的资源。
当前挑战
尽管CASIA-LM/ChineseWebText数据集在规模和质量上取得了显著成就,但其构建过程中仍面临诸多挑战。首先,从海量网络数据中提取高质量文本需要复杂的评估模型和大量的计算资源。其次,确保数据集的多样性和代表性,避免偏见和错误信息,是一个持续的挑战。此外,数据集的更新和维护,以适应不断变化的网络环境,也是一个重要的任务。这些挑战不仅影响了数据集的构建过程,也对其在实际应用中的效果提出了更高的要求。
常用场景
经典使用场景
在自然语言处理领域,CASIA-LM/ChineseWebText数据集的经典使用场景主要体现在大规模语言模型的预训练和微调过程中。该数据集以其高质量的中文文本,为研究人员提供了丰富的语料资源,使得模型能够更好地理解和生成中文内容。通过利用数据集中的质量评分,研究人员可以筛选出高质量的文本进行训练,从而提升模型的性能和泛化能力。
解决学术问题
CASIA-LM/ChineseWebText数据集解决了中文自然语言处理领域中高质量语料稀缺的问题。传统的中文数据集往往存在噪声大、质量参差不齐的缺陷,而该数据集通过引入质量评分机制,显著提升了文本的纯净度和可用性。这不仅有助于提升模型的训练效果,还为研究者提供了一个标准化的评估工具,推动了中文语言模型研究的进展。
实际应用
在实际应用中,CASIA-LM/ChineseWebText数据集被广泛应用于智能客服、机器翻译、文本生成等领域。例如,在智能客服系统中,利用该数据集训练的模型能够更准确地理解用户查询并提供高质量的回答。在机器翻译任务中,该数据集的高质量文本有助于提升翻译的准确性和流畅度。此外,文本生成模型也能从中受益,生成更加自然和连贯的中文文本。
数据集最近研究
最新研究方向
在自然语言处理领域,CASIA-LM/ChineseWebText数据集的最新研究方向主要集中在高质量中文文本的提取与评估模型的优化上。该数据集不仅提供了大规模的中文网页文本,还通过质量评分机制,为研究人员提供了筛选高质量数据的新标准。这一特性使得数据集在训练大型语言模型(LLM)时尤为重要,尤其是在提升模型对中文语境的理解和生成能力方面。此外,数据集的发布也促进了中文文本质量评估技术的进一步发展,为中文信息处理领域的研究提供了坚实的基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

UniProt

UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

Amazon电影评论数据集

该数据集包含从1997年8月至2012年10月期间,Amazon用户对253,059种产品的7,911,684条评论。数据集被添加了真实标签,这些标签是通过爬取/抓取Amazon.com获得的,用于分类产品。

github 收录

UIEB, U45, LSUI

本仓库提供了水下图像增强方法和数据集的实现,包括UIEB、U45和LSUI等数据集,用于支持水下图像增强的研究和开发。

github 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录