arubenruben/dummy-lid
收藏Hugging Face2024-05-19 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/arubenruben/dummy-lid
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个配置,每个配置都包含文本和标签两个特征,标签用于区分葡萄牙语(pt-PT)和巴西葡萄牙语(pt-BR)。数据集分为训练集、验证集和测试集,并提供了每个分割的字节数和样本数。具体配置包括journalistic、legal、literature、politics、social-media和web。
提供机构:
arubenruben
原始信息汇总
数据集概述
数据集配置
1. 新闻(journalistic)
- 特征:
text: 字符串类型label: 类别标签,包含两个类别:pt-PT和pt-BR
- 分割:
train: 905849个样本,641932369字节validation: 388222个样本,275126414字节test: 554603个样本,393251206字节
- 下载大小:866662319字节
- 数据集大小:1310309989字节
2. 法律(legal)
- 特征:
text: 字符串类型label: 类别标签,包含两个类别:pt-PT和pt-BR
- 分割:
train: 397405个样本,123139395字节validation: 200个样本,56663字节test: 1000个样本,271938字节
- 下载大小:75418714字节
- 数据集大小:123467996字节
3. 文学(literature)
- 特征:
text: 字符串类型label: 类别标签,包含两个类别:pt-PT和pt-BR
- 分割:
train: 10315个样本,3517766字节validation: 4422个样本,1484637字节test: 6317个样本,2125655字节
- 下载大小:4769367字节
- 数据集大小:7128058字节
4. 政治(politics)
- 特征:
text: 字符串类型label: 类别标签,包含两个类别:pt-PT和pt-BR
- 分割:
train: 5582个样本,189377492字节validation: 2393个样本,72061567字节test: 3419个样本,103743651字节
- 下载大小:199760800字节
- 数据集大小:365182710字节
5. 社交媒体(social-media)
- 特征:
text: 字符串类型label: 类别标签,包含两个类别:pt-PT和pt-BR
- 分割:
train: 2459818个样本,297960267字节test: 614956个样本,74413999字节
- 下载大小:267366967字节
- 数据集大小:372374266字节
6. 网络(web)
- 特征:
text: 字符串类型label: 类别标签,包含两个类别:pt-PT和pt-BR
- 分割:
train: 14480个样本,59528182字节validation: 6206个样本,26157753字节test: 8866个样本,35875967字节
- 下载大小:68458456字节
- 数据集大小:121561902字节



