five

geniacllm/wiki40b

收藏
Hugging Face2024-08-15 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/geniacllm/wiki40b
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: text dtype: string splits: - name: train num_bytes: 1324350631 num_examples: 1196655 download_size: 801322767 dataset_size: 1324350631 configs: - config_name: default data_files: - split: train path: data/train-* license: cc-by-sa-4.0 --- ## アクセス方法 ```python !pip install datasets from datasets import load_dataset dataset = load_dataset("geniacllm/wiki40b") ``` jsonlへの変換 ```python import json with open('your_dataset.jsonl', 'w', encoding='utf-8') as f: # 'train'はデータセットの特定のスプリットです。使用しているデータセットに合わせて調整してください。 for example in dataset['train']: # JSON Lines形式では、各データポイントをJSON文字列に変換し、新しい行に書き出します。 json_line = json.dumps(example) + "\n" f.write(json_line) ``` ## データセット情報 dataset_info: features: - name: text dtype: string splits: - name: train num_bytes: 1324350631 num_examples: 1196655 download_size: 801322767 dataset_size: 1324350631 configs: - config_name: default data_files: - split: train path: data/train-* ## citation * https://aclanthology.org/2020.lrec-1.297.pdf

--- 数据集信息: 数据特征: - 字段名:text,数据类型:字符串 数据划分: - 划分名称:train(训练集),字节数:1324350631,样本数量:1196655 下载大小:801322767字节,数据集总大小:1324350631字节 配置项: - 配置名称:default(默认配置),数据文件: - 划分:train,路径:data/train-* 许可证:知识共享署名-相同方式共享4.0协议(CC BY-SA 4.0) --- ## 访问方法 python !pip install datasets from datasets import load_dataset dataset = load_dataset("geniacllm/wiki40b") 转换为JSON Lines格式 python import json with open('your_dataset.jsonl', 'w', encoding='utf-8') as f: # 'train'为数据集的特定划分,请根据您使用的数据集实际情况进行调整。 for example in dataset['train']: # 在JSON Lines格式中,需将每个数据点转换为JSON字符串后写入新行。 json_line = json.dumps(example) + " " f.write(json_line) ## 数据集信息 数据特征: - 字段名:text,数据类型:字符串 数据划分: - 划分名称:train(训练集),字节数:1324350631,样本数量:1196655 下载大小:801322767字节,数据集总大小:1324350631字节 配置项: - 配置名称:default(默认配置),数据文件: - 划分:train,路径:data/train-* ## 引用信息 * https://aclanthology.org/2020.lrec-1.297.pdf
提供机构:
geniacllm
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作