OdiaGenAIdata/culturax-odia
收藏Hugging Face2024-03-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/OdiaGenAIdata/culturax-odia
下载链接
链接失效反馈官方服务:
资源简介:
数据集来源于CulturaX数据集的Odia子集,该子集本身来源于mC4和四个OSCAR语料库。数据集包含49M个标记和大约2.3M个句子。数据集安全,不包含任何有害内容。数据集的特征包括文本、时间戳、URL和来源,并且只有一个训练集,包含153461个样本,总大小为839280469字节。
数据集来源于CulturaX数据集的Odia子集,该子集本身来源于mC4和四个OSCAR语料库。数据集包含49M个标记和大约2.3M个句子。数据集安全,不包含任何有害内容。数据集的特征包括文本、时间戳、URL和来源,并且只有一个训练集,包含153461个样本,总大小为839280469字节。
提供机构:
OdiaGenAIdata
原始信息汇总
数据集概述
数据集信息
特征
- text: 数据类型为字符串。
- timestamp: 数据类型为字符串。
- url: 数据类型为字符串。
- source: 数据类型为字符串。
分割
- train:
- 字节数: 839280469
- 样本数: 153461
大小
- 下载大小: 321193165
- 数据集大小: 839280469
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
- data_files:
数据来源
- 数据来源于CulturaX数据集的Odia子集,该数据集源自mC4和四个OSCAR语料库。
数据规模
- 包含4900万tokens和约230万句子。
数据安全性
- 数据安全可用,不含任何有害成分。



