nicholasKluge/Pt-Corpus
收藏葡萄牙语语料库(Pt-Corpus)
数据集概述
数据集摘要
葡萄牙语语料库(Pt-Corpus)是由多个巴西葡萄牙语数据集拼接而成的,这些数据集来自Hugging Face Hub。在经过标记化处理后,该数据集(未压缩)大小约为50 GB,包含约41亿个标记。此版本不包含教学内容。
支持的任务和排行榜
该数据集可用于语言建模任务。
语言
葡萄牙语。
数据集结构
数据实例
数据集包含以下特征:
- text: 葡萄牙语的文本字符串。
- metadata: 该字符串的来源。
数据字段
python { "text": "A inteligência artificial (de sigla: IA; do inglês: artificial intelligence, de sigla: AI) é um campo de estudo multidisciplinar que abrange varias áreas do conhecimento.", "metadata": "source: https://huggingface.co/datasets/graelo/wikipedia" }
数据分割
可用的分割为 train。
python from datasets import load_dataset
dataset = load_dataset("nicholasKluge/Pt-Corpus", split=train)
如果不想下载整个数据集,设置 streaming 为 True
dataset = load_dataset("nicholasKluge/Pt-Corpus", split=train, streaming=True)
数据集创建
策划理由
该数据集是为TeenyTinyLlama: open-source tiny language models trained in Brazilian Portuguese论文开发的。在该研究中,我们记录了为低资源环境定制的开源基础模型的开发、其局限性和优势。
源数据
初始数据收集和规范化
我们采用了Rae等人的一些过滤器(2021),并使用fine-tuned BERTimbau排除超过预定义毒性阈值的样本。
源语言生产者
所有文本样本均为葡萄牙语原生或从其他语言翻译而来(也可能包含轻微的其他语言污染)。
注释
注释过程
葡萄牙语语料库(Pt-Corpus)是由多个巴西葡萄牙语数据集拼接而成的,这些数据集来自Hugging Face Hub。我们采用了Rae等人的一些过滤器(2021),并使用fine-tuned BERTimbau排除超过预定义毒性阈值的样本。
注释者
个人和敏感信息
该数据集来自网络爬取,可能包含个人和敏感信息,以及攻击性、有毒和令人不安的语言。
使用数据的注意事项
数据集的社会影响
数据集中存在的个人和敏感信息引发了对隐私和数据保护的担忧,可能导致个人机密性和安全性的泄露。此外,数据集中包含的攻击性、有毒和令人不安的语言存在助长有害行为和态度的风险,可能导致仇恨言论和网络毒性的正常化。因此,需要谨慎处理和伦理考虑,以减轻这些潜在的社会影响并促进负责任的数据集使用。
偏见的讨论
数据集中包含的攻击性、有毒和令人不安的语言存在助长有害行为和态度的风险,可能导致仇恨言论和网络毒性的正常化。
其他已知限制
数据集中的大部分数据是通过翻译引擎翻译的,可能导致语言和代码样本的损坏。虽然翻译引擎在快速转换语言之间文本方面很有用,但它们在准确保留编程语言的语法、语义和上下文方面常常遇到困难。因此,翻译后的代码可能包含错误、语法不一致或甚至引入漏洞,使其不可靠或无法用于其预期目的。
附加信息
数据集策展人
许可信息
以下数据集(仅训练分割是语料库的一部分)及其相应的许可构成了葡萄牙语语料库(Pt-Corpus):
- Wikipedia (许可:CC BY-SA 3.0)
- CulturaX (许可:ODC-By, cc0-1.0)
- OSCAR (许可:cc0-1.0)
- CCc100 (许可:Common Crawl terms of use)
- Roots Wikiquote (许可:CC BY-SA 3.0)
- Roots Ted Talks (许可:CC BY-NC-ND 4.0)
引用信息
latex @misc{correa24ttllama, title = {TeenyTinyLlama: open-source tiny language models trained in Brazilian Portuguese}, author = {Corr{^e}a, Nicholas Kluge and Falk, Sophia and Fatimah, Shiza and Sen, Aniket and De Oliveira, Nythamar}, journal={arXiv preprint arXiv:2401.16640}, year={2024} }
@misc{correa24ttllama, doi = {10.1016/j.mlwa.2024.100558}, url = {https://www.sciencedirect.com/science/article/pii/S2666827024000343}, title = {TeenyTinyLlama: open-source tiny language models trained in Brazilian Portuguese}, author = {Corr{^e}a, Nicholas Kluge and Falk, Sophia and Fatimah, Shiza and Sen, Aniket and De Oliveira, Nythamar}, journal={Machine Learning With Applications}, publisher = {Springer}, year={2024} }
贡献
如果您想贡献,请联系我:nicholas@airespucrs.org。



