five

CASIA-LM/ChineseWebText|自然语言处理数据集|预训练数据集数据集

收藏
hugging_face2023-11-13 更新2024-03-04 收录
自然语言处理
预训练数据集
下载链接:
https://hf-mirror.com/datasets/CASIA-LM/ChineseWebText
下载链接
链接失效反馈
资源简介:
ChineseWebText是一个大规模高质量的中文网络文本数据集,总数据量为1.42 TB,每个文本都有一个质量评分,便于研究人员根据新的质量阈值选择数据。此外,还发布了一个更干净的600 GB中文文本子集,其质量超过90%。数据集中的每个样本包括标题、质量评分、文本内容、原始网页URL和来源域名。

ChineseWebText是一个大规模高质量的中文网络文本数据集,总数据量为1.42 TB,每个文本都有一个质量评分,便于研究人员根据新的质量阈值选择数据。此外,还发布了一个更干净的600 GB中文文本子集,其质量超过90%。数据集中的每个样本包括标题、质量评分、文本内容、原始网页URL和来源域名。
提供机构:
CASIA-LM
原始信息汇总

ChineseWebText 数据集概述

数据集概览

  • ChineseWebText 是一个最新且规模庞大的中文数据集,包含 1.42 TB 的数据。每条文本都分配了一个质量分数,便于大型语言模型(LLM)研究人员根据新的质量阈值选择数据。
  • 此外,还发布了一个更干净的子集,包含 600 GB 的中文文本,质量超过 90%

数据示例

json { "title": "潍坊银行2021年上半年净利润同比增长29.57% 不良率降至1.10%_财经_中国网", "score": 0.95, "text": "潍坊银行2021年上半年净利润同比增长29.57% 不良率降至1.10% 中国网财经8月24日讯 潍坊银行昨日披露2021年二季度信息报告显示,截至2021年6月末,潍坊银行资产总额1920.44亿元,较上年末增长9.34%;负债总额1789.16亿元,较上年末增长10.54%。2021年上半年,潍坊银行实现净利润6.09亿元,同比增长29.57%。 资产质量方面,截至2021年6月末,潍坊银行不良贷款率1.10%,较上年末下降0.13个百分点。 资本金方面,截至2021年6月末,潍坊银行资本充足率、核心一级资本充足率、一级资本充足率分别为11.66%、7.89%、10.13%,分别较上年末下降1.89、0.89、1.15个百分点。", "url": "http://finance.china.com.cn/news/special/2021bnb/20210824/5638343.shtml", "source_domain": "finance.china.com.cn" }

  • title: 【string】数据文本的标题。
  • score: 【float】由质量评估模型生成的质量分数。
  • text: 【string】数据样本的文本内容。
  • url: 【string】指向文本原始网页地址的外部URL。
  • source_domain: 【string】源网站的域名。
AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建CASIA-LM/ChineseWebText数据集时,研究团队采用了一种高效的质量评估模型,从CommonCrawl数据中提取了大规模的高质量中文网页文本。该模型不仅对提取的文本进行了质量评分,还生成了一个包含1.42 TB数据的完整数据集,以及一个质量评分超过90%的600 GB清洁子集。这一过程确保了数据集的高质量和多样性,为后续的自然语言处理研究提供了坚实的基础。
使用方法
使用CASIA-LM/ChineseWebText数据集时,研究人员可以根据需要选择完整数据集或高质量子集。数据集中的每条文本都包含标题、质量评分、文本内容、原始网页URL以及来源域名等信息。这些详细的信息有助于研究人员进行更精确的数据筛选和分析。此外,数据集的构建工具EvalWeb也已公开,用户可以自行处理和评估其他中文网页数据,进一步扩展数据集的应用范围。
背景与挑战
背景概述
在自然语言处理领域,高质量的中文文本数据集对于训练大型语言模型(LLM)至关重要。CASIA-LM/ChineseWebText数据集由中科院自动化研究所(CASIA)的研究团队于2023年发布,旨在提供大规模、高质量的中文网络文本。该数据集包含1.42 TB的数据,每条文本均被赋予一个质量评分,便于研究人员根据新的质量阈值选择数据。此外,还提供了一个600 GB的清洁子集,其文本质量超过90%。这一数据集的发布显著推动了中文自然语言处理的研究进展,为研究人员提供了丰富的资源。
当前挑战
尽管CASIA-LM/ChineseWebText数据集在规模和质量上取得了显著成就,但其构建过程中仍面临诸多挑战。首先,从海量网络数据中提取高质量文本需要复杂的评估模型和大量的计算资源。其次,确保数据集的多样性和代表性,避免偏见和错误信息,是一个持续的挑战。此外,数据集的更新和维护,以适应不断变化的网络环境,也是一个重要的任务。这些挑战不仅影响了数据集的构建过程,也对其在实际应用中的效果提出了更高的要求。
常用场景
经典使用场景
在自然语言处理领域,CASIA-LM/ChineseWebText数据集的经典使用场景主要体现在大规模语言模型的预训练和微调过程中。该数据集以其高质量的中文文本,为研究人员提供了丰富的语料资源,使得模型能够更好地理解和生成中文内容。通过利用数据集中的质量评分,研究人员可以筛选出高质量的文本进行训练,从而提升模型的性能和泛化能力。
解决学术问题
CASIA-LM/ChineseWebText数据集解决了中文自然语言处理领域中高质量语料稀缺的问题。传统的中文数据集往往存在噪声大、质量参差不齐的缺陷,而该数据集通过引入质量评分机制,显著提升了文本的纯净度和可用性。这不仅有助于提升模型的训练效果,还为研究者提供了一个标准化的评估工具,推动了中文语言模型研究的进展。
实际应用
在实际应用中,CASIA-LM/ChineseWebText数据集被广泛应用于智能客服、机器翻译、文本生成等领域。例如,在智能客服系统中,利用该数据集训练的模型能够更准确地理解用户查询并提供高质量的回答。在机器翻译任务中,该数据集的高质量文本有助于提升翻译的准确性和流畅度。此外,文本生成模型也能从中受益,生成更加自然和连贯的中文文本。
数据集最近研究
最新研究方向
在自然语言处理领域,CASIA-LM/ChineseWebText数据集的最新研究方向主要集中在高质量中文文本的提取与评估模型的优化上。该数据集不仅提供了大规模的中文网页文本,还通过质量评分机制,为研究人员提供了筛选高质量数据的新标准。这一特性使得数据集在训练大型语言模型(LLM)时尤为重要,尤其是在提升模型对中文语境的理解和生成能力方面。此外,数据集的发布也促进了中文文本质量评估技术的进一步发展,为中文信息处理领域的研究提供了坚实的基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

ControlNet/WT-Data-Project

WT-DATA-PROJECT.DATA数据集包含了多个文件,主要涉及时间序列的战斗排名数据、Thunderskill数据、War Thunder Wiki数据以及这些数据的联合数据。时间序列数据包括不同国家的战斗评级、战斗次数、胜率等信息。Thunderskill数据提供了玩家在不同模式下的战斗统计数据。War Thunder Wiki数据则包含了游戏中各种载具的详细信息。联合数据则是将Thunderskill数据和War Thunder Wiki数据进行了整合,以便更好地利用两者的信息。

hugging_face 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录

SDUST-Dataset

山东科技大学发布的用于故障诊断的SDUST数据集。

github 收录