geniacllm/wiki40b

Name: geniacllm/wiki40b
Creator: geniacllm
Published: 2024-08-15 07:35:57
License: 暂无描述

Hugging Face2024-08-15 更新2025-04-12 收录

下载链接：

https://hf-mirror.com/datasets/geniacllm/wiki40b

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: text dtype: string splits: - name: train num_bytes: 1324350631 num_examples: 1196655 download_size: 801322767 dataset_size: 1324350631 configs: - config_name: default data_files: - split: train path: data/train-* license: cc-by-sa-4.0 --- ## アクセス方法 ```python !pip install datasets from datasets import load_dataset dataset = load_dataset("geniacllm/wiki40b") ``` jsonlへの変換 ```python import json with open('your_dataset.jsonl', 'w', encoding='utf-8') as f: # 'train'はデータセットの特定のスプリットです。使用しているデータセットに合わせて調整してください。 for example in dataset['train']: # JSON Lines形式では、各データポイントをJSON文字列に変換し、新しい行に書き出します。 json_line = json.dumps(example) + "\n" f.write(json_line) ``` ## データセット情報 dataset_info: features: - name: text dtype: string splits: - name: train num_bytes: 1324350631 num_examples: 1196655 download_size: 801322767 dataset_size: 1324350631 configs: - config_name: default data_files: - split: train path: data/train-* ## citation * https://aclanthology.org/2020.lrec-1.297.pdf

--- 数据集信息：数据特征： - 字段名：text，数据类型：字符串数据划分： - 划分名称：train（训练集），字节数：1324350631，样本数量：1196655 下载大小：801322767字节，数据集总大小：1324350631字节配置项： - 配置名称：default（默认配置），数据文件： - 划分：train，路径：data/train-* 许可证：知识共享署名-相同方式共享4.0协议（CC BY-SA 4.0） --- ## 访问方法 python !pip install datasets from datasets import load_dataset dataset = load_dataset("geniacllm/wiki40b") 转换为JSON Lines格式 python import json with open('your_dataset.jsonl', 'w', encoding='utf-8') as f: # 'train'为数据集的特定划分，请根据您使用的数据集实际情况进行调整。 for example in dataset['train']: # 在JSON Lines格式中，需将每个数据点转换为JSON字符串后写入新行。 json_line = json.dumps(example) + " " f.write(json_line) ## 数据集信息数据特征： - 字段名：text，数据类型：字符串数据划分： - 划分名称：train（训练集），字节数：1324350631，样本数量：1196655 下载大小：801322767字节，数据集总大小：1324350631字节配置项： - 配置名称：default（默认配置），数据文件： - 划分：train，路径：data/train-* ## 引用信息 * https://aclanthology.org/2020.lrec-1.297.pdf

提供机构：

geniacllm

5,000+

优质数据集

54 个

任务类型

进入经典数据集