arubenruben/dummy-lid

Name: arubenruben/dummy-lid
Creator: arubenruben
Published: 2024-05-19 10:28:07
License: 暂无描述

Hugging Face2024-05-19 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/arubenruben/dummy-lid

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个配置，每个配置都包含文本和标签两个特征，标签用于区分葡萄牙语（pt-PT）和巴西葡萄牙语（pt-BR）。数据集分为训练集、验证集和测试集，并提供了每个分割的字节数和样本数。具体配置包括journalistic、legal、literature、politics、social-media和web。

提供机构：

arubenruben

原始信息汇总

数据集概述

数据集配置

1. 新闻（journalistic）

特征：
- text: 字符串类型
- label: 类别标签，包含两个类别：pt-PT 和 pt-BR
分割：
- train: 905849个样本，641932369字节
- validation: 388222个样本，275126414字节
- test: 554603个样本，393251206字节
下载大小：866662319字节
数据集大小：1310309989字节

2. 法律（legal）

特征：
- text: 字符串类型
- label: 类别标签，包含两个类别：pt-PT 和 pt-BR
分割：
- train: 397405个样本，123139395字节
- validation: 200个样本，56663字节
- test: 1000个样本，271938字节
下载大小：75418714字节
数据集大小：123467996字节

3. 文学（literature）

特征：
- text: 字符串类型
- label: 类别标签，包含两个类别：pt-PT 和 pt-BR
分割：
- train: 10315个样本，3517766字节
- validation: 4422个样本，1484637字节
- test: 6317个样本，2125655字节
下载大小：4769367字节
数据集大小：7128058字节

4. 政治（politics）

特征：
- text: 字符串类型
- label: 类别标签，包含两个类别：pt-PT 和 pt-BR
分割：
- train: 5582个样本，189377492字节
- validation: 2393个样本，72061567字节
- test: 3419个样本，103743651字节
下载大小：199760800字节
数据集大小：365182710字节

5. 社交媒体（social-media）

特征：
- text: 字符串类型
- label: 类别标签，包含两个类别：pt-PT 和 pt-BR
分割：
- train: 2459818个样本，297960267字节
- test: 614956个样本，74413999字节
下载大小：267366967字节
数据集大小：372374266字节

6. 网络（web）

特征：
- text: 字符串类型
- label: 类别标签，包含两个类别：pt-PT 和 pt-BR
分割：
- train: 14480个样本，59528182字节
- validation: 6206个样本，26157753字节
- test: 8866个样本，35875967字节
下载大小：68458456字节
数据集大小：121561902字节

5,000+

优质数据集

54 个

任务类型

进入经典数据集