five

WuDaoCorpus-200G-shuffled

收藏
魔搭社区2026-05-20 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/whynlp/WuDaoCorpus-200G-shuffled
下载链接
链接失效反馈
官方服务:
资源简介:
数据集文件元信息以及数据文件,请浏览“数据集文件”页面获取。 当前数据集卡片使用的是默认模版,数据集的贡献者未提供更加详细的数据集介绍,但是您可以通过如下GIT Clone命令,或者ModelScope SDK来下载数据集 #### 下载方法 :modelscope-code[]{type="sdk"} :modelscope-code[]{type="git"} ### Usage This dataset is a shuffled version of [wudao-200G](https://www.scidb.cn/en/detail?dataSetId=c6a3fe684227415a9db8e21bac4a15ab). Each data point adds an item `filename` indicating the original file name. Disk Usage: about 90G |KEYS| EXPLAIN| |---|---| |id| 数据在该json文件的id| |uniqueKey| 该条数据的唯一识别码| |titleUkey| 该标题的唯一识别码| |dataType| 数据类型| |title| 数据标题| |content| 正文| |filename| 原始json文件名|

数据集文件元信息及数据文件请浏览"数据集文件"页面获取。 当前数据集卡片采用默认模板,数据集贡献者未提供更详细的数据集介绍,您可通过如下GIT Clone命令或ModelScope SDK下载该数据集。 #### 下载方法 :modelscope-code[]{type="sdk"} :modelscope-code[]{type="git"} ### 使用说明 本数据集为[悟道200G(wudao-200G)](https://www.scidb.cn/en/detail?dataSetId=c6a3fe684227415a9db8e21bac4a15ab)的打乱版本。每条数据新增`filename`字段,用于标注原始文件名。 磁盘占用:约90GB | 字段名 | 说明 | |---|---| | id | 该JSON(JavaScript Object Notation)文件中的数据标识 | | uniqueKey | 本条数据的唯一识别码 | | titleUkey | 该标题的唯一识别码 | | dataType | 数据类型 | | title | 数据标题 | | content | 正文内容 | | filename | 原始JSON文件名 |
提供机构:
maas
创建时间:
2024-02-29
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作