five

Bastao/VeraCruz_PT-BR

收藏
Hugging Face2024-05-09 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/Bastao/VeraCruz_PT-BR
下载链接
链接失效反馈
官方服务:
资源简介:
VeraCruz数据集是一个全面的葡萄牙语内容集合,展示了葡萄牙语地区的语言和文化多样性。它包含约1.9亿个样本,根据URL元数据按区域来源组织成主要类别。主要类别包括:葡萄牙(PT)、巴西(BR)和其他。对于其他类别的样本,使用PeroVaz_PT-BR_Classifier进一步分类为PT或BR,并补充了label和score两列。数据集来源于MyCulturaX数据集的葡萄牙语部分,但MyCulturaX不区分葡萄牙语的两种变体。数据集可能包含个人和敏感信息,使用时需遵守隐私保护法律和伦理标准。数据集的许可条款遵循mC4和OSCAR的许可。
提供机构:
Bastao
原始信息汇总

数据集概述

数据集名称

VeraCruz Dataset

数据集内容

  • 语言: 葡萄牙语
  • 样本数量: 约190 million
  • 分类:
    • Portugal (PT): 内容URL明确指示葡萄牙来源的样本。
    • Brazil (BR): 内容URL明确指示巴西来源的样本。
    • Other: URL元数据不明确指示葡萄牙或巴西来源的样本。这些样本通过PeroVaz_PT-BR_Classifier进一步分类为“PT”或“BR”,并补充了label和score两个额外列。

数据集来源

源自MyCulturaX数据集的葡萄牙语部分。

数据集注意事项

  • 可能包含个人和敏感信息,使用时需采取隐私保护措施。
  • 遵循mC4和OSCAR的许可证。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作