eduagarcia/cc_news_pt
收藏Hugging Face2023-06-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/eduagarcia/cc_news_pt
下载链接
链接失效反馈官方服务:
资源简介:
CC-News-PT是从CommonCrawl News中提取的葡萄牙语新闻文章的集合。CommonCrawl News是一个包含来自世界各地新闻网站的文章的数据集。该数据集是[CloverSearch/cc-news-mutlilingual](https://huggingface.co/datasets/CloverSearch/cc-news-mutlilingual)的葡萄牙语子集。
提供机构:
eduagarcia
原始信息汇总
数据集概述
名称: CC-News-PT
语言: 葡萄牙语(pt)
许可: 未知
数据集大小: 1B<n<10B
任务类别:
- 文本生成
- 填充掩码
- 文本到文本生成
任务ID:
- 语言建模
- 掩码语言建模
数据集来源
CC-News-PT是从CommonCrawl News中精选的葡萄牙语新闻文章集合。CommonCrawl News是一个包含全球新闻网站新闻文章的数据集。此版本的CC-News-PT是来自CloverSearch/cc-news-mutlilingual的葡萄牙语子集。
数据字段
title: 字符串类型text: 字符串类型authors: 字符串类型domain: 字符串类型date: 字符串类型description: 字符串类型url: 字符串类型image_url: 字符串类型date_download: 字符串类型
引用信息
@misc{Acerola2023, author = {Garcia, E.A.S.}, title = {Acerola Corpus: Towards Better Portuguese Language Models}, year = {2023}, doi = {10.57967/hf/0814} }



