five

arubenruben/dummy-lid

收藏
Hugging Face2024-05-19 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/arubenruben/dummy-lid
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个配置,每个配置都包含文本和标签两个特征,标签用于区分葡萄牙语(pt-PT)和巴西葡萄牙语(pt-BR)。数据集分为训练集、验证集和测试集,并提供了每个分割的字节数和样本数。具体配置包括journalistic、legal、literature、politics、social-media和web。
提供机构:
arubenruben
原始信息汇总

数据集概述

数据集配置

1. 新闻(journalistic)

  • 特征
    • text: 字符串类型
    • label: 类别标签,包含两个类别:pt-PTpt-BR
  • 分割
    • train: 905849个样本,641932369字节
    • validation: 388222个样本,275126414字节
    • test: 554603个样本,393251206字节
  • 下载大小:866662319字节
  • 数据集大小:1310309989字节

2. 法律(legal)

  • 特征
    • text: 字符串类型
    • label: 类别标签,包含两个类别:pt-PTpt-BR
  • 分割
    • train: 397405个样本,123139395字节
    • validation: 200个样本,56663字节
    • test: 1000个样本,271938字节
  • 下载大小:75418714字节
  • 数据集大小:123467996字节

3. 文学(literature)

  • 特征
    • text: 字符串类型
    • label: 类别标签,包含两个类别:pt-PTpt-BR
  • 分割
    • train: 10315个样本,3517766字节
    • validation: 4422个样本,1484637字节
    • test: 6317个样本,2125655字节
  • 下载大小:4769367字节
  • 数据集大小:7128058字节

4. 政治(politics)

  • 特征
    • text: 字符串类型
    • label: 类别标签,包含两个类别:pt-PTpt-BR
  • 分割
    • train: 5582个样本,189377492字节
    • validation: 2393个样本,72061567字节
    • test: 3419个样本,103743651字节
  • 下载大小:199760800字节
  • 数据集大小:365182710字节

5. 社交媒体(social-media)

  • 特征
    • text: 字符串类型
    • label: 类别标签,包含两个类别:pt-PTpt-BR
  • 分割
    • train: 2459818个样本,297960267字节
    • test: 614956个样本,74413999字节
  • 下载大小:267366967字节
  • 数据集大小:372374266字节

6. 网络(web)

  • 特征
    • text: 字符串类型
    • label: 类别标签,包含两个类别:pt-PTpt-BR
  • 分割
    • train: 14480个样本,59528182字节
    • validation: 6206个样本,26157753字节
    • test: 8866个样本,35875967字节
  • 下载大小:68458456字节
  • 数据集大小:121561902字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作