BatsResearch/sib200-LexC-Gen

Name: BatsResearch/sib200-LexC-Gen
Creator: BatsResearch
Published: 2024-02-27 23:45:30
License: 暂无描述

Hugging Face2024-02-27 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/BatsResearch/sib200-LexC-Gen

下载链接

链接失效反馈

官方服务：

资源简介：

LexC-Gen数据集是为SIB-200主题分类任务设计的，专为极低资源语言生成。该数据集使用大型语言模型（LLMs）和双语词典生成，涵盖10种语言。每个数据实例包含id、text和label三个特征。数据集分为train和validation两个部分，并根据语言和大小有不同的配置。该数据集是合成的，由于翻译不完美，可能包含英文单词。README文件还提供了数据集的创建背景、使用注意事项、许可信息和引用方式。

提供机构：

BatsResearch

原始信息汇总

数据集概述

数据集描述

语言多样性: 多语言
数据规模: 10K<n<100K
任务类别: 文本分类
任务ID: 主题分类
标签: 新闻主题, sib-200, sib200, 合成

数据集结构

配置信息

ak_100k

特征:
- id: int64
- text: string
- label: int64
分割:
- train: 3587478 字节, 22062 样本
- validation: 14755 字节, 99 样本
下载大小: 2185047 字节
数据集大小: 3602233 字节

ak_10k

特征:
- id: int64
- text: string
- label: int64
分割:
- train: 370304 字节, 2271 样本
- validation: 14755 字节, 99 样本
下载大小: 239976 字节
数据集大小: 385059 字节

ak_1k

特征:
- id: int64
- text: string
- label: int64
分割:
- train: 36361 字节, 229 样本
- validation: 14755 字节, 99 样本
下载大小: 37326 字节
数据集大小: 51116 字节

bm_100k

特征:
- id: int64
- text: string
- label: int64
分割:
- train: 3796341 字节, 19972 样本
- validation: 15791 字节, 99 样本
下载大小: 2248093 字节
数据集大小: 3812132 字节

bm_10k

特征:
- id: int64
- text: string
- label: int64
分割:
- train: 385755 字节, 2257 样本
- validation: 15791 字节, 99 样本
下载大小: 245275 字节
数据集大小: 401546 字节

bm_1k

特征:
- id: int64
- text: string
- label: int64
分割:
- train: 39450 字节, 201 样本
- validation: 15791 字节, 99 样本
下载大小: 39023 字节
数据集大小: 55241 字节

ee_100k

特征:
- id: int64
- text: string
- label: int64
分割:
- train: 3845466 字节, 22352 样本
- validation: 15477 字节, 99 样本
下载大小: 2312846 字节
数据集大小: 3860943 字节

ee_10k

特征:
- id: int64
- text: string
- label: int64
分割:
- train: 385266 字节, 2230 样本
- validation: 15477 字节, 99 样本
下载大小: 245696 字节
数据集大小: 400743 字节

ee_1k

特征:
- id: int64
- text: string
- label: int64
分割:
- train: 43044 字节, 252 样本
- validation: 15477 字节, 99 样本
下载大小: 41559 字节
数据集大小: 58521 字节

fj_100k

特征:
- id: int64
- text: string
- label: int64
分割:
- train: 3720751 字节, 22343 样本
- validation: 15135 字节, 99 样本
下载大小: 2211095 字节
数据集大小: 3735886 字节

fj_10k

特征:
- id: int64
- text: string
- label: int64
分割:
- train: 367761 字节, 2224 样本
- validation: 15135 字节, 99 样本
下载大小: 231436 字节
数据集大小: 382896 字节

fj_1k

特征:
- id: int64
- text: string
- label: int64
分割:
- train: 37902 字节, 228 样本
- validation: 15135 字节, 99 样本
下载大小: 38113 字节
数据集大小: 53037 字节

gn_100k

特征:
- id: int64
- text: string
- label: int64
分割:
- train: 4493339 字节, 22231 样本
- validation: 17407 字节, 99 样本
下载大小: 2430340 字节
数据集大小: 4510746 字节

gn_10k

特征:
- id: int64
- text: string
- label: int64
分割:
- train: 453561 字节, 2229 样本
- validation: 17407 字节, 99 样本
下载大小: 258889 字节
数据集大小: 470968 字节

gn_1k

特征:
- id: int64
- text: string
- label: int64
分割:
- train: 45320 字节, 217 样本
- validation: 17407 字节, 99 样本
下载大小: 40876 字节
数据集大小: 62727 字节

ln_100k

特征:
- id: int64
- text: string
- label: int64
分割:
- train: 3925088 字节, 22445 样本
- validation: 15683 字节, 99 样本
下载大小: 2255900 字节
数据集大小: 3940771 字节

ln_10k

特征:
- id: int64
- text: string
- label: int64
分割:
- train: 393944 字节, 2231 样本
- validation: 15683 字节, 99 样本
下载大小: 240507 字节
数据集大小: 409627 字节

ln_1k

特征:
- id: int64
- text: string
- label: int64
分割:
- train: 38076 字节, 223 样本
- validation: 15683 字节, 99 样本
下载大小: 37096 字节
数据集大小: 53759 字节

lus_100k

特征:
- id: int64
- text: string
- label: int64
分割:
- train: 3807289 字节, 22331 样本
- validation: 15417 字节, 99 样本
下载大小: 2266155 字节
数据集大小: 3822706 字节

lus_10k

特征:
- id: int64
- text: string
- label: int64
分割:
- train: 386103 字节, 2266 样本
- validation: 15417 字节, 99 样本
下载大小: 244118 字节
数据集大小: 401520 字节

lus_1k

特征:
- id: int64
- text: string
- label: int64
分割:
- train: 37926 字节, 218 样本
- validation: 15417 字节, 99 样本
下载大小: 37815 字节
数据集大小: 53343 字节

sg_100k

特征:
- id: int64
- text: string
- label: int64
分割:
- train: 3843121 字节, 21752 样本
- validation: 15569 字节, 99 样本
下载大小: 2211613 字节
数据集大小: 3858690 字节

sg_10k

特征:
- id: int64
- text: string
- label: int64
分割:
- train: 387784 字节, 2203 样本
- validation: 15569 字节, 99 样本
下载大小: 237669 字节
数据集大小: 403353 字节

sg_1k

特征:
- id: int64
- text: string
- label: int64
分割:
- train: 37561 字节, 212 样本
- validation: 15569 字节, 99 样本
下载大小: 37004 字节
数据集大小: 53130 字节

ts_100k

特征:
- id: int64
- text: string
- label: int64
分割:
- train: 3661185 字节, 20069 样本
- validation: 15126 字节, 99 样本
下载大小: 2290947 字节
数据集大小: 3676311 字节

ts_10k

特征:
- id: int64
- text: string
- label: int64
分割:
- train: 377366 字节, 2079 样本
- validation: 15126 字节, 99 样本
下载大小: 251583 字节
数据集大小: 392492 字节

ts_1k

特征:
- id: int64
- text: string
- label: int64
分割:
- train: 35059 字节, 188 样本
- validation: 15126 字节, 99 样本
下载大小: 37964 字节
数据集大小: 50185 字节

tum_100k

特征:
- id: int64
- text: string
- label: int64
分割:
- train: 4117789 字节, 21667 样本
- validation: 15922 字节, 99 样本
下载大小: 2480890 字节
数据集大小: 4133711 字节

tum_10k

特征:
- id: int64
- text: string
- label: int64
分割:
- train: 415921 字节, 2344 样本
- validation: 15922 字节, 99 样本
下载大小: 262403 字节
数据集大小: 431843 字节

tum_1k

特征:
- id: int64
- text: string
- label: int64
分割:
- train: 39665 字节, 209 样本
- validation: 15922 字节, 99 样本
下载大小: 39937 字节
数据集大小: 55587 字节

数据字段

id: 唯一标识符
text: 生成的文本
label: 标签，整数类型

数据分割

数据集包含两个分割：

train: 训练数据
validation: 验证数据

数据集创建

数据集创建理由

该数据集是为了解决极低资源语言缺乏标注数据的问题，通过使用高资源语言的任务数据、大型语言模型和双语词典来生成大规模数据。

使用数据的注意事项

该数据集是合成数据集，由大型语言模型在英语中生成，然后通过双语词典逐字翻译成低资源语言。由于翻译不完美，可能包含英语单词，并且使用英语语法结构（如主谓宾词序），这不一定代表低资源语言的语法结构。

5,000+

优质数据集

54 个

任务类型

进入经典数据集