geniacllm/wiki40b
收藏Hugging Face2024-08-15 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/geniacllm/wiki40b
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: text
dtype: string
splits:
- name: train
num_bytes: 1324350631
num_examples: 1196655
download_size: 801322767
dataset_size: 1324350631
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
license: cc-by-sa-4.0
---
## アクセス方法
```python
!pip install datasets
from datasets import load_dataset
dataset = load_dataset("geniacllm/wiki40b")
```
jsonlへの変換
```python
import json
with open('your_dataset.jsonl', 'w', encoding='utf-8') as f:
# 'train'はデータセットの特定のスプリットです。使用しているデータセットに合わせて調整してください。
for example in dataset['train']:
# JSON Lines形式では、各データポイントをJSON文字列に変換し、新しい行に書き出します。
json_line = json.dumps(example) + "\n"
f.write(json_line)
```
## データセット情報
dataset_info:
features:
- name: text
dtype: string
splits:
- name: train
num_bytes: 1324350631
num_examples: 1196655
download_size: 801322767
dataset_size: 1324350631
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
## citation
* https://aclanthology.org/2020.lrec-1.297.pdf
---
数据集信息:
数据特征:
- 字段名:text,数据类型:字符串
数据划分:
- 划分名称:train(训练集),字节数:1324350631,样本数量:1196655
下载大小:801322767字节,数据集总大小:1324350631字节
配置项:
- 配置名称:default(默认配置),数据文件:
- 划分:train,路径:data/train-*
许可证:知识共享署名-相同方式共享4.0协议(CC BY-SA 4.0)
---
## 访问方法
python
!pip install datasets
from datasets import load_dataset
dataset = load_dataset("geniacllm/wiki40b")
转换为JSON Lines格式
python
import json
with open('your_dataset.jsonl', 'w', encoding='utf-8') as f:
# 'train'为数据集的特定划分,请根据您使用的数据集实际情况进行调整。
for example in dataset['train']:
# 在JSON Lines格式中,需将每个数据点转换为JSON字符串后写入新行。
json_line = json.dumps(example) + "
"
f.write(json_line)
## 数据集信息
数据特征:
- 字段名:text,数据类型:字符串
数据划分:
- 划分名称:train(训练集),字节数:1324350631,样本数量:1196655
下载大小:801322767字节,数据集总大小:1324350631字节
配置项:
- 配置名称:default(默认配置),数据文件:
- 划分:train,路径:data/train-*
## 引用信息
* https://aclanthology.org/2020.lrec-1.297.pdf
提供机构:
geniacllm



