nicholasKluge/Pt-Corpus

Name: nicholasKluge/Pt-Corpus
Creator: nicholasKluge
Published: 2024-06-18 12:05:57
License: 暂无描述

Hugging Face2024-06-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/nicholasKluge/Pt-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Portuguese-Corpus是一个由多个巴西葡萄牙语数据集部分拼接而成的语料库。该数据集主要用于语言建模任务，包含葡萄牙语文本及其来源元数据。数据集未压缩时大小为50GB，包含约4.1B个token。数据集来源于多个公开数据集，并经过过滤以排除超过预设毒性阈值的样本。数据集可能包含个人和敏感信息，以及冒犯性、有毒和令人不安的语言，因此在使用时需要谨慎处理。

提供机构：

nicholasKluge

原始信息汇总

葡萄牙语语料库（Pt-Corpus）

数据集概述

数据集摘要

葡萄牙语语料库（Pt-Corpus）是由多个巴西葡萄牙语数据集拼接而成的，这些数据集来自Hugging Face Hub。在经过标记化处理后，该数据集（未压缩）大小约为50 GB，包含约41亿个标记。此版本不包含教学内容。

支持的任务和排行榜

该数据集可用于语言建模任务。

语言

葡萄牙语。

数据集结构

数据实例

数据集包含以下特征：

text: 葡萄牙语的文本字符串。
metadata: 该字符串的来源。

数据字段

python { "text": "A inteligência artificial (de sigla: IA; do inglês: artificial intelligence, de sigla: AI) é um campo de estudo multidisciplinar que abrange varias áreas do conhecimento.", "metadata": "source: https://huggingface.co/datasets/graelo/wikipedia" }

数据分割

可用的分割为 train。

python from datasets import load_dataset

dataset = load_dataset("nicholasKluge/Pt-Corpus", split=train)

如果不想下载整个数据集，设置 streaming 为 `True`

dataset = load_dataset("nicholasKluge/Pt-Corpus", split=train, streaming=True)

数据集创建

策划理由

该数据集是为TeenyTinyLlama: open-source tiny language models trained in Brazilian Portuguese论文开发的。在该研究中，我们记录了为低资源环境定制的开源基础模型的开发、其局限性和优势。

源数据

初始数据收集和规范化

我们采用了Rae等人的一些过滤器（2021），并使用fine-tuned BERTimbau排除超过预定义毒性阈值的样本。

源语言生产者

所有文本样本均为葡萄牙语原生或从其他语言翻译而来（也可能包含轻微的其他语言污染）。

注释

注释过程

葡萄牙语语料库（Pt-Corpus）是由多个巴西葡萄牙语数据集拼接而成的，这些数据集来自Hugging Face Hub。我们采用了Rae等人的一些过滤器（2021），并使用fine-tuned BERTimbau排除超过预定义毒性阈值的样本。

注释者

Nicholas Kluge Corrêa。

个人和敏感信息

该数据集来自网络爬取，可能包含个人和敏感信息，以及攻击性、有毒和令人不安的语言。

使用数据的注意事项

数据集的社会影响

数据集中存在的个人和敏感信息引发了对隐私和数据保护的担忧，可能导致个人机密性和安全性的泄露。此外，数据集中包含的攻击性、有毒和令人不安的语言存在助长有害行为和态度的风险，可能导致仇恨言论和网络毒性的正常化。因此，需要谨慎处理和伦理考虑，以减轻这些潜在的社会影响并促进负责任的数据集使用。

偏见的讨论

数据集中包含的攻击性、有毒和令人不安的语言存在助长有害行为和态度的风险，可能导致仇恨言论和网络毒性的正常化。

其他已知限制

数据集中的大部分数据是通过翻译引擎翻译的，可能导致语言和代码样本的损坏。虽然翻译引擎在快速转换语言之间文本方面很有用，但它们在准确保留编程语言的语法、语义和上下文方面常常遇到困难。因此，翻译后的代码可能包含错误、语法不一致或甚至引入漏洞，使其不可靠或无法用于其预期目的。

附加信息

数据集策展人

Nicholas Kluge Corrêa。

许可信息

以下数据集（仅训练分割是语料库的一部分）及其相应的许可构成了葡萄牙语语料库（Pt-Corpus）：

引用信息

latex @misc{correa24ttllama, title = {TeenyTinyLlama: open-source tiny language models trained in Brazilian Portuguese}, author = {Corr{^e}a, Nicholas Kluge and Falk, Sophia and Fatimah, Shiza and Sen, Aniket and De Oliveira, Nythamar}, journal={arXiv preprint arXiv:2401.16640}, year={2024} }

@misc{correa24ttllama, doi = {10.1016/j.mlwa.2024.100558}, url = {https://www.sciencedirect.com/science/article/pii/S2666827024000343}, title = {TeenyTinyLlama: open-source tiny language models trained in Brazilian Portuguese}, author = {Corr{^e}a, Nicholas Kluge and Falk, Sophia and Fatimah, Shiza and Sen, Aniket and De Oliveira, Nythamar}, journal={Machine Learning With Applications}, publisher = {Springer}, year={2024} }

贡献

如果您想贡献，请联系我：nicholas@airespucrs.org。

5,000+

优质数据集

54 个

任务类型

进入经典数据集