five

hugosousa/Publico

收藏
Hugging Face2024-03-19 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/hugosousa/Publico
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: id dtype: string - name: text dtype: string download_size: 112131429 dataset_size: 180048487 configs: - config_name: pt data_files: - split: train path: pt/train.jsonl - split: test path: pt/test.jsonl - config_name: es data_files: - split: train path: es/train.jsonl - split: test path: es/test.jsonl - config_name: fr data_files: - split: train path: fr/train.jsonl - split: test path: fr/test.jsonl - config_name: de data_files: - split: train path: de/train.jsonl - split: test path: de/test.jsonl - config_name: en data_files: - split: train path: en/train.jsonl - split: test path: en/test.jsonl license: mit language: - pt - en - de - fr - es tags: - news size_categories: - 10K<n<100K --- # Público This dataset was build by translating a set of 34,157 news from [Público](https://www.publico.pt), an European Portuguese news paper. The news have been translated using Google Translator. To now more about the data visit the Github repos used to [scrape](https://github.com/hmosousa/publico_scraper) and [translate](https://github.com/hmosousa/publico) the news.
提供机构:
hugosousa
原始信息汇总

数据集概述

基本信息

  • 特征:
    • id: 数据类型为字符串
    • text: 数据类型为字符串
  • 下载大小: 112131429字节
  • 数据集大小: 180048487字节

配置

  • pt:
    • 训练集路径: pt/train.jsonl
    • 测试集路径: pt/test.jsonl
  • es:
    • 训练集路径: es/train.jsonl
    • 测试集路径: es/test.jsonl
  • fr:
    • 训练集路径: fr/train.jsonl
    • 测试集路径: fr/test.jsonl
  • de:
    • 训练集路径: de/train.jsonl
    • 测试集路径: de/test.jsonl
  • en:
    • 训练集路径: en/train.jsonl
    • 测试集路径: en/test.jsonl

许可

  • 许可证: MIT

语言

  • 葡萄牙语 (pt)
  • 英语 (en)
  • 德语 (de)
  • 法语 (fr)
  • 西班牙语 (es)

标签

  • 新闻

大小分类

  • 10K<n<100K
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作