five

OdiaGenAIdata/culturax-odia

收藏
Hugging Face2024-03-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/OdiaGenAIdata/culturax-odia
下载链接
链接失效反馈
官方服务:
资源简介:
数据集来源于CulturaX数据集的Odia子集,该子集本身来源于mC4和四个OSCAR语料库。数据集包含49M个标记和大约2.3M个句子。数据集安全,不包含任何有害内容。数据集的特征包括文本、时间戳、URL和来源,并且只有一个训练集,包含153461个样本,总大小为839280469字节。

数据集来源于CulturaX数据集的Odia子集,该子集本身来源于mC4和四个OSCAR语料库。数据集包含49M个标记和大约2.3M个句子。数据集安全,不包含任何有害内容。数据集的特征包括文本、时间戳、URL和来源,并且只有一个训练集,包含153461个样本,总大小为839280469字节。
提供机构:
OdiaGenAIdata
原始信息汇总

数据集概述

数据集信息

特征

  • text: 数据类型为字符串。
  • timestamp: 数据类型为字符串。
  • url: 数据类型为字符串。
  • source: 数据类型为字符串。

分割

  • train:
    • 字节数: 839280469
    • 样本数: 153461

大小

  • 下载大小: 321193165
  • 数据集大小: 839280469

配置

  • config_name: default
    • data_files:
      • split: train
      • path: data/train-*

数据来源

  • 数据来源于CulturaX数据集的Odia子集,该数据集源自mC4和四个OSCAR语料库。

数据规模

  • 包含4900万tokens和约230万句子。

数据安全性

  • 数据安全可用,不含任何有害成分。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作