CASIA-LM/ChineseWebText|自然语言处理数据集|预训练数据集数据集

hugging_face2023-11-13 更新2024-03-04 收录

自然语言处理

预训练数据集

下载链接：

https://hf-mirror.com/datasets/CASIA-LM/ChineseWebText

下载链接

链接失效反馈

资源简介：

ChineseWebText是一个大规模高质量的中文网络文本数据集，总数据量为1.42 TB，每个文本都有一个质量评分，便于研究人员根据新的质量阈值选择数据。此外，还发布了一个更干净的600 GB中文文本子集，其质量超过90%。数据集中的每个样本包括标题、质量评分、文本内容、原始网页URL和来源域名。

提供机构：

CASIA-LM

原始信息汇总

ChineseWebText 数据集概述

数据集概览

ChineseWebText 是一个最新且规模庞大的中文数据集，包含 1.42 TB 的数据。每条文本都分配了一个质量分数，便于大型语言模型（LLM）研究人员根据新的质量阈值选择数据。
此外，还发布了一个更干净的子集，包含 600 GB 的中文文本，质量超过 90%。

数据示例

json { "title": "潍坊银行2021年上半年净利润同比增长29.57% 不良率降至1.10%_财经_中国网", "score": 0.95, "text": "潍坊银行2021年上半年净利润同比增长29.57% 不良率降至1.10% 中国网财经8月24日讯潍坊银行昨日披露2021年二季度信息报告显示，截至2021年6月末，潍坊银行资产总额1920.44亿元，较上年末增长9.34%；负债总额1789.16亿元，较上年末增长10.54%。2021年上半年，潍坊银行实现净利润6.09亿元，同比增长29.57%。资产质量方面，截至2021年6月末，潍坊银行不良贷款率1.10%，较上年末下降0.13个百分点。资本金方面，截至2021年6月末，潍坊银行资本充足率、核心一级资本充足率、一级资本充足率分别为11.66%、7.89%、10.13%，分别较上年末下降1.89、0.89、1.15个百分点。", "url": "http://finance.china.com.cn/news/special/2021bnb/20210824/5638343.shtml", "source_domain": "finance.china.com.cn" }

title: 【string】数据文本的标题。
score: 【float】由质量评估模型生成的质量分数。
text: 【string】数据样本的文本内容。
url: 【string】指向文本原始网页地址的外部URL。
source_domain: 【string】源网站的域名。

AI搜集汇总

数据集介绍

构建方式

在构建CASIA-LM/ChineseWebText数据集时，研究团队采用了一种高效的质量评估模型，从CommonCrawl数据中提取了大规模的高质量中文网页文本。该模型不仅对提取的文本进行了质量评分，还生成了一个包含1.42 TB数据的完整数据集，以及一个质量评分超过90%的600 GB清洁子集。这一过程确保了数据集的高质量和多样性，为后续的自然语言处理研究提供了坚实的基础。

使用方法

使用CASIA-LM/ChineseWebText数据集时，研究人员可以根据需要选择完整数据集或高质量子集。数据集中的每条文本都包含标题、质量评分、文本内容、原始网页URL以及来源域名等信息。这些详细的信息有助于研究人员进行更精确的数据筛选和分析。此外，数据集的构建工具EvalWeb也已公开，用户可以自行处理和评估其他中文网页数据，进一步扩展数据集的应用范围。

背景与挑战

背景概述

在自然语言处理领域，高质量的中文文本数据集对于训练大型语言模型（LLM）至关重要。CASIA-LM/ChineseWebText数据集由中科院自动化研究所（CASIA）的研究团队于2023年发布，旨在提供大规模、高质量的中文网络文本。该数据集包含1.42 TB的数据，每条文本均被赋予一个质量评分，便于研究人员根据新的质量阈值选择数据。此外，还提供了一个600 GB的清洁子集，其文本质量超过90%。这一数据集的发布显著推动了中文自然语言处理的研究进展，为研究人员提供了丰富的资源。

当前挑战

尽管CASIA-LM/ChineseWebText数据集在规模和质量上取得了显著成就，但其构建过程中仍面临诸多挑战。首先，从海量网络数据中提取高质量文本需要复杂的评估模型和大量的计算资源。其次，确保数据集的多样性和代表性，避免偏见和错误信息，是一个持续的挑战。此外，数据集的更新和维护，以适应不断变化的网络环境，也是一个重要的任务。这些挑战不仅影响了数据集的构建过程，也对其在实际应用中的效果提出了更高的要求。

常用场景

经典使用场景

在自然语言处理领域，CASIA-LM/ChineseWebText数据集的经典使用场景主要体现在大规模语言模型的预训练和微调过程中。该数据集以其高质量的中文文本，为研究人员提供了丰富的语料资源，使得模型能够更好地理解和生成中文内容。通过利用数据集中的质量评分，研究人员可以筛选出高质量的文本进行训练，从而提升模型的性能和泛化能力。

解决学术问题

CASIA-LM/ChineseWebText数据集解决了中文自然语言处理领域中高质量语料稀缺的问题。传统的中文数据集往往存在噪声大、质量参差不齐的缺陷，而该数据集通过引入质量评分机制，显著提升了文本的纯净度和可用性。这不仅有助于提升模型的训练效果，还为研究者提供了一个标准化的评估工具，推动了中文语言模型研究的进展。

实际应用

在实际应用中，CASIA-LM/ChineseWebText数据集被广泛应用于智能客服、机器翻译、文本生成等领域。例如，在智能客服系统中，利用该数据集训练的模型能够更准确地理解用户查询并提供高质量的回答。在机器翻译任务中，该数据集的高质量文本有助于提升翻译的准确性和流畅度。此外，文本生成模型也能从中受益，生成更加自然和连贯的中文文本。

数据集最近研究

最新研究方向

在自然语言处理领域，CASIA-LM/ChineseWebText数据集的最新研究方向主要集中在高质量中文文本的提取与评估模型的优化上。该数据集不仅提供了大规模的中文网页文本，还通过质量评分机制，为研究人员提供了筛选高质量数据的新标准。这一特性使得数据集在训练大型语言模型（LLM）时尤为重要，尤其是在提升模型对中文语境的理解和生成能力方面。此外，数据集的发布也促进了中文文本质量评估技术的进一步发展，为中文信息处理领域的研究提供了坚实的基础。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

中国区域地面气象要素驱动数据集 v2.0（1951-2020）

中国区域地面气象要素驱动数据集（China Meteorological Forcing Data，以下简称 CMFD）是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素，时间分辨率为 3 小时，水平空间分辨率为 0.1°，时间长度为 70 年（1951~2020 年），覆盖了 70°E~140°E，15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据，并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品，其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展，其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本，而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集，但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外，在制作 CMFD 2.0 的过程中，研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息，显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时，CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年，并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同，但其有效数据扩展到了中国之外，能够更好地支持跨境区域研究。为方便用户使用，CMFD 2.0 还在基础变量集之外提供了若干衍生变量，包括近地面相对湿度、雨雪分离降水产品等。此外，CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术，转而直接将实型数据压缩存储于 NetCDF4 格式文件中，从而消除了用户使用数据时进行解压换算的困扰。本数据集原定版本号为 1.7，但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变，故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致，仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新，以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中，计划于 2025 年上半年发布，从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心收录

Breast-Caner-Detection Dataset

该数据集包含约5000张用于训练和验证的标记乳房X光图像，以及约1800张未标记的测试图像。所有图像均为(224,224,3)格式，标签从Density1到Density4，表示乳房密度的增加，并分为良性或恶性。

github 收录

Materials Project 在线材料数据库

Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算，为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果，以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性，还涵盖了电子结构和热力学性质等详尽信息，为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。

超神经收录