five

nicholasKluge/Pt-Corpus

收藏
Hugging Face2024-06-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nicholasKluge/Pt-Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
Portuguese-Corpus是一个由多个巴西葡萄牙语数据集部分拼接而成的语料库。该数据集主要用于语言建模任务,包含葡萄牙语文本及其来源元数据。数据集未压缩时大小为50GB,包含约4.1B个token。数据集来源于多个公开数据集,并经过过滤以排除超过预设毒性阈值的样本。数据集可能包含个人和敏感信息,以及冒犯性、有毒和令人不安的语言,因此在使用时需要谨慎处理。

Portuguese-Corpus是一个由多个巴西葡萄牙语数据集部分拼接而成的语料库。该数据集主要用于语言建模任务,包含葡萄牙语文本及其来源元数据。数据集未压缩时大小为50GB,包含约4.1B个token。数据集来源于多个公开数据集,并经过过滤以排除超过预设毒性阈值的样本。数据集可能包含个人和敏感信息,以及冒犯性、有毒和令人不安的语言,因此在使用时需要谨慎处理。
提供机构:
nicholasKluge
原始信息汇总

葡萄牙语语料库(Pt-Corpus)

数据集概述

数据集摘要

葡萄牙语语料库(Pt-Corpus)是由多个巴西葡萄牙语数据集拼接而成的,这些数据集来自Hugging Face Hub。在经过标记化处理后,该数据集(未压缩)大小约为50 GB,包含约41亿个标记。此版本不包含教学内容。

支持的任务和排行榜

该数据集可用于语言建模任务。

语言

葡萄牙语。

数据集结构

数据实例

数据集包含以下特征:

  • text: 葡萄牙语的文本字符串。
  • metadata: 该字符串的来源。

数据字段

python { "text": "A inteligência artificial (de sigla: IA; do inglês: artificial intelligence, de sigla: AI) é um campo de estudo multidisciplinar que abrange varias áreas do conhecimento.", "metadata": "source: https://huggingface.co/datasets/graelo/wikipedia" }

数据分割

可用的分割为 train

python from datasets import load_dataset

dataset = load_dataset("nicholasKluge/Pt-Corpus", split=train)

如果不想下载整个数据集,设置 streaming 为 True

dataset = load_dataset("nicholasKluge/Pt-Corpus", split=train, streaming=True)

数据集创建

策划理由

该数据集是为TeenyTinyLlama: open-source tiny language models trained in Brazilian Portuguese论文开发的。在该研究中,我们记录了为低资源环境定制的开源基础模型的开发、其局限性和优势。

源数据

初始数据收集和规范化

我们采用了Rae等人的一些过滤器(2021),并使用fine-tuned BERTimbau排除超过预定义毒性阈值的样本。

源语言生产者

所有文本样本均为葡萄牙语原生或从其他语言翻译而来(也可能包含轻微的其他语言污染)。

注释

注释过程

葡萄牙语语料库(Pt-Corpus)是由多个巴西葡萄牙语数据集拼接而成的,这些数据集来自Hugging Face Hub。我们采用了Rae等人的一些过滤器(2021),并使用fine-tuned BERTimbau排除超过预定义毒性阈值的样本。

注释者

Nicholas Kluge Corrêa

个人和敏感信息

该数据集来自网络爬取,可能包含个人和敏感信息,以及攻击性、有毒和令人不安的语言。

使用数据的注意事项

数据集的社会影响

数据集中存在的个人和敏感信息引发了对隐私和数据保护的担忧,可能导致个人机密性和安全性的泄露。此外,数据集中包含的攻击性、有毒和令人不安的语言存在助长有害行为和态度的风险,可能导致仇恨言论和网络毒性的正常化。因此,需要谨慎处理和伦理考虑,以减轻这些潜在的社会影响并促进负责任的数据集使用。

偏见的讨论

数据集中包含的攻击性、有毒和令人不安的语言存在助长有害行为和态度的风险,可能导致仇恨言论和网络毒性的正常化。

其他已知限制

数据集中的大部分数据是通过翻译引擎翻译的,可能导致语言和代码样本的损坏。虽然翻译引擎在快速转换语言之间文本方面很有用,但它们在准确保留编程语言的语法、语义和上下文方面常常遇到困难。因此,翻译后的代码可能包含错误、语法不一致或甚至引入漏洞,使其不可靠或无法用于其预期目的。

附加信息

数据集策展人

Nicholas Kluge Corrêa

许可信息

以下数据集(仅训练分割是语料库的一部分)及其相应的许可构成了葡萄牙语语料库(Pt-Corpus):

引用信息

latex @misc{correa24ttllama, title = {TeenyTinyLlama: open-source tiny language models trained in Brazilian Portuguese}, author = {Corr{^e}a, Nicholas Kluge and Falk, Sophia and Fatimah, Shiza and Sen, Aniket and De Oliveira, Nythamar}, journal={arXiv preprint arXiv:2401.16640}, year={2024} }

@misc{correa24ttllama, doi = {10.1016/j.mlwa.2024.100558}, url = {https://www.sciencedirect.com/science/article/pii/S2666827024000343}, title = {TeenyTinyLlama: open-source tiny language models trained in Brazilian Portuguese}, author = {Corr{^e}a, Nicholas Kluge and Falk, Sophia and Fatimah, Shiza and Sen, Aniket and De Oliveira, Nythamar}, journal={Machine Learning With Applications}, publisher = {Springer}, year={2024} }

贡献

如果您想贡献,请联系我:nicholas@airespucrs.org

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作