Bastao/VeraCruz_PT-BR
收藏Hugging Face2024-05-09 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/Bastao/VeraCruz_PT-BR
下载链接
链接失效反馈官方服务:
资源简介:
VeraCruz数据集是一个全面的葡萄牙语内容集合,展示了葡萄牙语地区的语言和文化多样性。它包含约1.9亿个样本,根据URL元数据按区域来源组织成主要类别。主要类别包括:葡萄牙(PT)、巴西(BR)和其他。对于其他类别的样本,使用PeroVaz_PT-BR_Classifier进一步分类为PT或BR,并补充了label和score两列。数据集来源于MyCulturaX数据集的葡萄牙语部分,但MyCulturaX不区分葡萄牙语的两种变体。数据集可能包含个人和敏感信息,使用时需遵守隐私保护法律和伦理标准。数据集的许可条款遵循mC4和OSCAR的许可。
提供机构:
Bastao
原始信息汇总
数据集概述
数据集名称
VeraCruz Dataset
数据集内容
- 语言: 葡萄牙语
- 样本数量: 约190 million
- 分类:
- Portugal (PT): 内容URL明确指示葡萄牙来源的样本。
- Brazil (BR): 内容URL明确指示巴西来源的样本。
- Other: URL元数据不明确指示葡萄牙或巴西来源的样本。这些样本通过PeroVaz_PT-BR_Classifier进一步分类为“PT”或“BR”,并补充了label和score两个额外列。
数据集来源
源自MyCulturaX数据集的葡萄牙语部分。
数据集注意事项
- 可能包含个人和敏感信息,使用时需采取隐私保护措施。
- 遵循mC4和OSCAR的许可证。



