p208p2002/wudao

Name: p208p2002/wudao
Creator: p208p2002
Published: 2024-05-09 08:14:10
License: 暂无描述

Hugging Face2024-05-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/p208p2002/wudao

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - zh task_categories: - text-generation size_categories: - n>1T configs: - config_name: default data_files: - split: train path: "*.parquet" --- # 悟道(WuDao)資料集非原製作者，僅搬移與封裝成 HF Dataset 格式方便使用。此資料集下載約需要125GB(`.parquet`壓縮)，對應悟道220G版本。如果使用此資料集，請引用原作者： ``` @misc{ c6a3fe684227415a9db8e21bac4a15ab, author = {Zhao Xue and Hanyu Zhao and Sha Yuan and Yequan Wang}, title = {{WuDaoCorpora Text}}, year = 2022, month = dec, publisher = {Science Data Bank}, version = {V1}, doi = {10.57760/sciencedb.o00126.00004}, url = https://doi.org/10.57760/sciencedb.o00126.00004 } ``` ## 出處連結 [Science Data Bank](https://www.scidb.cn/en/detail?dataSetId=c6a3fe684227415a9db8e21bac4a15ab) ## 使用 ```python from datasets import load_dataset load_dataset("p208p2002/wudao",streaming=True,split="train") ``` ## 資料類別統計 ```json { "_total": 59100001, "豆瓣话题": 209027, "科技": 1278068, "经济": 1096215, "汽车": 1368193, "娱乐": 1581947, "农业": 1129758, "军事": 420949, "社会": 446228, "游戏": 754703, "教育": 1133453, "体育": 660858, "旅行": 821573, "国际": 630386, "房产": 387786, "文化": 710648, "法律": 36585, "股票": 1205, "博客": 15467790, "日报": 16971, "评论": 13867, "孕育常识": 48291, "健康": 15291, "财经": 54656, "医学问答": 314771, "资讯": 1066180, "科普文章": 60581, "百科": 27273280, "酒业": 287, "经验": 609195, "新闻": 846810, "小红书攻略": 185379, "生活": 23, "网页文本": 115830, "观点": 1268, "海外": 4, "户外": 5, "美容": 7, "理论": 247, "天气": 540, "文旅": 2999, "信托": 62, "保险": 70, "水利资讯": 17, "时尚": 1123, "亲子": 39, "百家号文章": 335591, "黄金": 216, "党建": 1, "期货": 330, "快讯": 41, "国内": 15, "国学": 614, "公益": 15, "能源": 7, "创新": 6 } ```

--- language: - zh task_categories: - 文本生成 size_categories: - 样本数大于1万亿 configs: - config_name: default data_files: - split: train path: "*.parquet" --- # 悟道(WuDao)数据集本数据集并非原作者制作，仅为迁移并封装为Hugging Face数据集（Hugging Face Dataset，简称HF Dataset）格式以方便使用。该数据集下载体积约为125GB（.parquet压缩格式），对应悟道220GB版本。若使用本数据集，请引用原作者的文献： @misc{ c6a3fe684227415a9db8e21bac4a15ab, author = {Zhao Xue and Hanyu Zhao and Sha Yuan and Yequan Wang}, title = {{WuDaoCorpora Text}}, year = 2022, month = dec, publisher = {Science Data Bank}, version = {V1}, doi = {10.57760/sciencedb.o00126.00004}, url = https://doi.org/10.57760/sciencedb.o00126.00004 } ## 来源链接 [Science Data Bank](https://www.scidb.cn/en/detail?dataSetId=c6a3fe684227415a9db8e21bac4a15ab) ## 使用方法 python from datasets import load_dataset load_dataset("p208p2002/wudao",streaming=True,split="train") ## 数据类别统计 json { "_total": 59100001, "豆瓣话题": 209027, "科技": 1278068, "经济": 1096215, "汽车": 1368193, "娱乐": 1581947, "农业": 1129758, "军事": 420949, "社会": 446228, "游戏": 754703, "教育": 1133453, "体育": 660858, "旅行": 821573, "国际": 630386, "房产": 387786, "文化": 710648, "法律": 36585, "股票": 1205, "博客": 15467790, "日报": 16971, "评论": 13867, "孕育常识": 48291, "健康": 15291, "财经": 54656, "医学问答": 314771, "资讯": 1066180, "科普文章": 60581, "百科": 27273280, "酒业": 287, "经验": 609195, "新闻": 846810, "小红书攻略": 185379, "生活": 23, "网页文本": 115830, "观点": 1268, "海外": 4, "户外": 5, "美容": 7, "理论": 247, "天气": 540, "文旅": 2999, "信托": 62, "保险": 70, "水利资讯": 17, "时尚": 1123, "亲子": 39, "百家号文章": 335591, "黄金": 216, "党建": 1, "期货": 330, "快讯": 41, "国内": 15, "国学": 614, "公益": 15, "能源": 7, "创新": 6 }

提供机构：

p208p2002

原始信息汇总

悟道(WuDao)資料集

基本信息

语言: 中文
任务类别: 文本生成
数据规模: 大于1TB
配置: 默认配置
- 数据文件:
  - 分割: 训练集
  - 路径: *.parquet

数据集描述

大小: 约125GB（.parquet压缩），对应悟道220G版本。
引用信息:

@misc{ c6a3fe684227415a9db8e21bac4a15ab, author = {Zhao Xue and Hanyu Zhao and Sha Yuan and Yequan Wang}, title = {{WuDaoCorpora Text}}, year = 2022, month = dec, publisher = {Science Data Bank}, version = {V1}, doi = {10.57760/sciencedb.o00126.00004}, url = https://doi.org/10.57760/sciencedb.o00126.00004 }

使用方法

python from datasets import load_dataset load_dataset("p208p2002/wudao", streaming=True, split="train")

数据类别统计

json { "_total": 59100001, "豆瓣话题": 209027, "科技": 1278068, "经济": 1096215, "汽车": 1368193, "娱乐": 1581947, "农业": 1129758, "军事": 420949, "社会": 446228, "游戏": 754703, "教育": 1133453, "体育": 660858, "旅行": 821573, "国际": 630386, "房产": 387786, "文化": 710648, "法律": 36585, "股票": 1205, "博客": 15467790, "日报": 16971, "评论": 13867, "孕育常识": 48291, "健康": 15291, "财经": 54656, "医学问答": 314771, "资讯": 1066180, "科普文章": 60581, "百科": 27273280, "酒业": 287, "经验": 609195, "新闻": 846810, "小红书攻略": 185379, "生活": 23, "网页文本": 115830, "观点": 1268, "海外": 4, "户外": 5, "美容": 7, "理论": 247, "天气": 540, "文旅": 2999, "信托": 62, "保险": 70, "水利资讯": 17, "时尚": 1123, "亲子": 39, "百家号文章": 335591, "黄金": 216, "党建": 1, "期货": 330, "快讯": 41, "国内": 15, "国学": 614, "公益": 15, "能源": 7, "创新": 6 }

搜集汇总

数据集介绍

构建方式

悟道(WuDao)資料集的构建是基于大规模文本数据的整合，涵盖了广泛的主题和领域。数据集采用Parquet文件格式存储，此格式支持高效的数据压缩和编码，便于大规模文本数据的存储与处理。数据集的构建过程中，开发者对原始文本进行了封装，以HuggingFace Dataset格式提供，便于用户在自然语言处理任务中使用。

特点

该数据集的特点在于其规模宏大，文本总量超过5.91亿条，数据容量超过1TB，涵盖了从日常生活到专业领域的多样化内容，如科技、经济、娱乐等。此外，数据集具有丰富的数据类别统计，包含但不限于豆瓣话题、博客、新闻、医学问答等多种文本类型，为研究者和开发者提供了全面而深入的语言数据资源。

使用方法

使用该数据集时，用户可以通过HuggingFace的datasets库加载。数据集支持streaming模式，这意味着可以按需加载数据，而不必一次性将整个数据集载入内存，这对于处理大规模数据集尤为重要。加载代码简洁明了，用户仅需指定数据集名称和split参数即可开始数据处理工作。

背景与挑战

背景概述

悟道(WuDao)資料集，由Zhao Xue、Hanyu Zhao、Sha Yuan和Yequan Wang等研究人员于2022年12月通过Science Data Bank发布，版本为V1。该数据集是大规模中文文本数据集，其核心研究问题在于提供丰富的中文语料资源，以支持自然语言处理领域的研究与应用，特别是文本生成任务。数据集包含5910万条记录，涵盖多种类别，如科技、经济、教育等，对推动中文自然语言处理技术的发展具有显著影响力。

当前挑战

在构建过程中，数据集面临的挑战包括处理和整合大规模文本数据，确保数据的质量和多样性。此外，由于数据集规模巨大，给存储和下载带来了挑战。在研究领域中，该数据集面临的挑战包括如何有效利用其丰富的信息资源来提升文本生成模型的性能，以及如何处理数据中的噪声和不一致性，确保模型训练的稳定性和准确性。

常用场景

经典使用场景

在自然语言处理领域，悟道(WuDao)资料集以其庞大的文本量成为文本生成任务的重要资源。该资料集常被用于构建预训练语言模型，以提升模型在文本生成、文本分类、情感分析等方面的性能。

实际应用

实际应用中，悟道资料集可被用于搜索引擎优化、智能客服、内容推荐系统等，其丰富的数据类别使得模型能够适应多种实际场景，提升服务的智能化水平。

衍生相关工作

基于悟道资料集，研究者们已经衍生出许多相关工作，包括但不限于文本生成模型的性能评估、跨领域文本分类模型的构建、以及多模态信息处理的研究，极大地推动了自然语言处理领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集