BatsResearch/sib200-LexC-Gen
收藏Hugging Face2024-02-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/BatsResearch/sib200-LexC-Gen
下载链接
链接失效反馈官方服务:
资源简介:
LexC-Gen数据集是为SIB-200主题分类任务设计的,专为极低资源语言生成。该数据集使用大型语言模型(LLMs)和双语词典生成,涵盖10种语言。每个数据实例包含id、text和label三个特征。数据集分为train和validation两个部分,并根据语言和大小有不同的配置。该数据集是合成的,由于翻译不完美,可能包含英文单词。README文件还提供了数据集的创建背景、使用注意事项、许可信息和引用方式。
LexC-Gen数据集是为SIB-200主题分类任务设计的,专为极低资源语言生成。该数据集使用大型语言模型(LLMs)和双语词典生成,涵盖10种语言。每个数据实例包含id、text和label三个特征。数据集分为train和validation两个部分,并根据语言和大小有不同的配置。该数据集是合成的,由于翻译不完美,可能包含英文单词。README文件还提供了数据集的创建背景、使用注意事项、许可信息和引用方式。
提供机构:
BatsResearch
原始信息汇总
数据集概述
数据集描述
- 语言多样性: 多语言
- 数据规模: 10K<n<100K
- 任务类别: 文本分类
- 任务ID: 主题分类
- 标签: 新闻主题, sib-200, sib200, 合成
数据集结构
配置信息
ak_100k
- 特征:
id: int64text: stringlabel: int64
- 分割:
train: 3587478 字节, 22062 样本validation: 14755 字节, 99 样本
- 下载大小: 2185047 字节
- 数据集大小: 3602233 字节
ak_10k
- 特征:
id: int64text: stringlabel: int64
- 分割:
train: 370304 字节, 2271 样本validation: 14755 字节, 99 样本
- 下载大小: 239976 字节
- 数据集大小: 385059 字节
ak_1k
- 特征:
id: int64text: stringlabel: int64
- 分割:
train: 36361 字节, 229 样本validation: 14755 字节, 99 样本
- 下载大小: 37326 字节
- 数据集大小: 51116 字节
bm_100k
- 特征:
id: int64text: stringlabel: int64
- 分割:
train: 3796341 字节, 19972 样本validation: 15791 字节, 99 样本
- 下载大小: 2248093 字节
- 数据集大小: 3812132 字节
bm_10k
- 特征:
id: int64text: stringlabel: int64
- 分割:
train: 385755 字节, 2257 样本validation: 15791 字节, 99 样本
- 下载大小: 245275 字节
- 数据集大小: 401546 字节
bm_1k
- 特征:
id: int64text: stringlabel: int64
- 分割:
train: 39450 字节, 201 样本validation: 15791 字节, 99 样本
- 下载大小: 39023 字节
- 数据集大小: 55241 字节
ee_100k
- 特征:
id: int64text: stringlabel: int64
- 分割:
train: 3845466 字节, 22352 样本validation: 15477 字节, 99 样本
- 下载大小: 2312846 字节
- 数据集大小: 3860943 字节
ee_10k
- 特征:
id: int64text: stringlabel: int64
- 分割:
train: 385266 字节, 2230 样本validation: 15477 字节, 99 样本
- 下载大小: 245696 字节
- 数据集大小: 400743 字节
ee_1k
- 特征:
id: int64text: stringlabel: int64
- 分割:
train: 43044 字节, 252 样本validation: 15477 字节, 99 样本
- 下载大小: 41559 字节
- 数据集大小: 58521 字节
fj_100k
- 特征:
id: int64text: stringlabel: int64
- 分割:
train: 3720751 字节, 22343 样本validation: 15135 字节, 99 样本
- 下载大小: 2211095 字节
- 数据集大小: 3735886 字节
fj_10k
- 特征:
id: int64text: stringlabel: int64
- 分割:
train: 367761 字节, 2224 样本validation: 15135 字节, 99 样本
- 下载大小: 231436 字节
- 数据集大小: 382896 字节
fj_1k
- 特征:
id: int64text: stringlabel: int64
- 分割:
train: 37902 字节, 228 样本validation: 15135 字节, 99 样本
- 下载大小: 38113 字节
- 数据集大小: 53037 字节
gn_100k
- 特征:
id: int64text: stringlabel: int64
- 分割:
train: 4493339 字节, 22231 样本validation: 17407 字节, 99 样本
- 下载大小: 2430340 字节
- 数据集大小: 4510746 字节
gn_10k
- 特征:
id: int64text: stringlabel: int64
- 分割:
train: 453561 字节, 2229 样本validation: 17407 字节, 99 样本
- 下载大小: 258889 字节
- 数据集大小: 470968 字节
gn_1k
- 特征:
id: int64text: stringlabel: int64
- 分割:
train: 45320 字节, 217 样本validation: 17407 字节, 99 样本
- 下载大小: 40876 字节
- 数据集大小: 62727 字节
ln_100k
- 特征:
id: int64text: stringlabel: int64
- 分割:
train: 3925088 字节, 22445 样本validation: 15683 字节, 99 样本
- 下载大小: 2255900 字节
- 数据集大小: 3940771 字节
ln_10k
- 特征:
id: int64text: stringlabel: int64
- 分割:
train: 393944 字节, 2231 样本validation: 15683 字节, 99 样本
- 下载大小: 240507 字节
- 数据集大小: 409627 字节
ln_1k
- 特征:
id: int64text: stringlabel: int64
- 分割:
train: 38076 字节, 223 样本validation: 15683 字节, 99 样本
- 下载大小: 37096 字节
- 数据集大小: 53759 字节
lus_100k
- 特征:
id: int64text: stringlabel: int64
- 分割:
train: 3807289 字节, 22331 样本validation: 15417 字节, 99 样本
- 下载大小: 2266155 字节
- 数据集大小: 3822706 字节
lus_10k
- 特征:
id: int64text: stringlabel: int64
- 分割:
train: 386103 字节, 2266 样本validation: 15417 字节, 99 样本
- 下载大小: 244118 字节
- 数据集大小: 401520 字节
lus_1k
- 特征:
id: int64text: stringlabel: int64
- 分割:
train: 37926 字节, 218 样本validation: 15417 字节, 99 样本
- 下载大小: 37815 字节
- 数据集大小: 53343 字节
sg_100k
- 特征:
id: int64text: stringlabel: int64
- 分割:
train: 3843121 字节, 21752 样本validation: 15569 字节, 99 样本
- 下载大小: 2211613 字节
- 数据集大小: 3858690 字节
sg_10k
- 特征:
id: int64text: stringlabel: int64
- 分割:
train: 387784 字节, 2203 样本validation: 15569 字节, 99 样本
- 下载大小: 237669 字节
- 数据集大小: 403353 字节
sg_1k
- 特征:
id: int64text: stringlabel: int64
- 分割:
train: 37561 字节, 212 样本validation: 15569 字节, 99 样本
- 下载大小: 37004 字节
- 数据集大小: 53130 字节
ts_100k
- 特征:
id: int64text: stringlabel: int64
- 分割:
train: 3661185 字节, 20069 样本validation: 15126 字节, 99 样本
- 下载大小: 2290947 字节
- 数据集大小: 3676311 字节
ts_10k
- 特征:
id: int64text: stringlabel: int64
- 分割:
train: 377366 字节, 2079 样本validation: 15126 字节, 99 样本
- 下载大小: 251583 字节
- 数据集大小: 392492 字节
ts_1k
- 特征:
id: int64text: stringlabel: int64
- 分割:
train: 35059 字节, 188 样本validation: 15126 字节, 99 样本
- 下载大小: 37964 字节
- 数据集大小: 50185 字节
tum_100k
- 特征:
id: int64text: stringlabel: int64
- 分割:
train: 4117789 字节, 21667 样本validation: 15922 字节, 99 样本
- 下载大小: 2480890 字节
- 数据集大小: 4133711 字节
tum_10k
- 特征:
id: int64text: stringlabel: int64
- 分割:
train: 415921 字节, 2344 样本validation: 15922 字节, 99 样本
- 下载大小: 262403 字节
- 数据集大小: 431843 字节
tum_1k
- 特征:
id: int64text: stringlabel: int64
- 分割:
train: 39665 字节, 209 样本validation: 15922 字节, 99 样本
- 下载大小: 39937 字节
- 数据集大小: 55587 字节
数据字段
id: 唯一标识符text: 生成的文本label: 标签,整数类型
数据分割
数据集包含两个分割:
train: 训练数据validation: 验证数据
数据集创建
数据集创建理由
该数据集是为了解决极低资源语言缺乏标注数据的问题,通过使用高资源语言的任务数据、大型语言模型和双语词典来生成大规模数据。
使用数据的注意事项
该数据集是合成数据集,由大型语言模型在英语中生成,然后通过双语词典逐字翻译成低资源语言。由于翻译不完美,可能包含英语单词,并且使用英语语法结构(如主谓宾词序),这不一定代表低资源语言的语法结构。



