five

eduagarcia/cc_news_pt

收藏
Hugging Face2023-06-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/eduagarcia/cc_news_pt
下载链接
链接失效反馈
官方服务:
资源简介:
CC-News-PT是从CommonCrawl News中提取的葡萄牙语新闻文章的集合。CommonCrawl News是一个包含来自世界各地新闻网站的文章的数据集。该数据集是[CloverSearch/cc-news-mutlilingual](https://huggingface.co/datasets/CloverSearch/cc-news-mutlilingual)的葡萄牙语子集。
提供机构:
eduagarcia
原始信息汇总

数据集概述

名称: CC-News-PT

语言: 葡萄牙语(pt)

许可: 未知

数据集大小: 1B<n<10B

任务类别:

  • 文本生成
  • 填充掩码
  • 文本到文本生成

任务ID:

  • 语言建模
  • 掩码语言建模

数据集来源

CC-News-PT是从CommonCrawl News中精选的葡萄牙语新闻文章集合。CommonCrawl News是一个包含全球新闻网站新闻文章的数据集。此版本的CC-News-PT是来自CloverSearch/cc-news-mutlilingual的葡萄牙语子集。

数据字段

  • title: 字符串类型
  • text: 字符串类型
  • authors: 字符串类型
  • domain: 字符串类型
  • date: 字符串类型
  • description: 字符串类型
  • url: 字符串类型
  • image_url: 字符串类型
  • date_download: 字符串类型

引用信息

@misc{Acerola2023, author = {Garcia, E.A.S.}, title = {Acerola Corpus: Towards Better Portuguese Language Models}, year = {2023}, doi = {10.57967/hf/0814} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作