WuDaoCorpus-200G-shuffled
收藏魔搭社区2026-05-20 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/whynlp/WuDaoCorpus-200G-shuffled
下载链接
链接失效反馈官方服务:
资源简介:
数据集文件元信息以及数据文件,请浏览“数据集文件”页面获取。
当前数据集卡片使用的是默认模版,数据集的贡献者未提供更加详细的数据集介绍,但是您可以通过如下GIT Clone命令,或者ModelScope SDK来下载数据集
#### 下载方法
:modelscope-code[]{type="sdk"}
:modelscope-code[]{type="git"}
### Usage
This dataset is a shuffled version of [wudao-200G](https://www.scidb.cn/en/detail?dataSetId=c6a3fe684227415a9db8e21bac4a15ab). Each data point adds an item `filename` indicating the original file name.
Disk Usage: about 90G
|KEYS| EXPLAIN|
|---|---|
|id| 数据在该json文件的id|
|uniqueKey| 该条数据的唯一识别码|
|titleUkey| 该标题的唯一识别码|
|dataType| 数据类型|
|title| 数据标题|
|content| 正文|
|filename| 原始json文件名|
数据集文件元信息及数据文件请浏览"数据集文件"页面获取。
当前数据集卡片采用默认模板,数据集贡献者未提供更详细的数据集介绍,您可通过如下GIT Clone命令或ModelScope SDK下载该数据集。
#### 下载方法
:modelscope-code[]{type="sdk"}
:modelscope-code[]{type="git"}
### 使用说明
本数据集为[悟道200G(wudao-200G)](https://www.scidb.cn/en/detail?dataSetId=c6a3fe684227415a9db8e21bac4a15ab)的打乱版本。每条数据新增`filename`字段,用于标注原始文件名。
磁盘占用:约90GB
| 字段名 | 说明 |
|---|---|
| id | 该JSON(JavaScript Object Notation)文件中的数据标识 |
| uniqueKey | 本条数据的唯一识别码 |
| titleUkey | 该标题的唯一识别码 |
| dataType | 数据类型 |
| title | 数据标题 |
| content | 正文内容 |
| filename | 原始JSON文件名 |
提供机构:
maas
创建时间:
2024-02-29



