hugosousa/Publico
收藏Hugging Face2024-03-19 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/hugosousa/Publico
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: string
- name: text
dtype: string
download_size: 112131429
dataset_size: 180048487
configs:
- config_name: pt
data_files:
- split: train
path: pt/train.jsonl
- split: test
path: pt/test.jsonl
- config_name: es
data_files:
- split: train
path: es/train.jsonl
- split: test
path: es/test.jsonl
- config_name: fr
data_files:
- split: train
path: fr/train.jsonl
- split: test
path: fr/test.jsonl
- config_name: de
data_files:
- split: train
path: de/train.jsonl
- split: test
path: de/test.jsonl
- config_name: en
data_files:
- split: train
path: en/train.jsonl
- split: test
path: en/test.jsonl
license: mit
language:
- pt
- en
- de
- fr
- es
tags:
- news
size_categories:
- 10K<n<100K
---
# Público
This dataset was build by translating a set of 34,157 news from [Público](https://www.publico.pt), an European Portuguese news paper. The news have been translated using Google Translator.
To now more about the data visit the Github repos used to [scrape](https://github.com/hmosousa/publico_scraper) and [translate](https://github.com/hmosousa/publico) the news.
提供机构:
hugosousa
原始信息汇总
数据集概述
基本信息
- 特征:
id: 数据类型为字符串text: 数据类型为字符串
- 下载大小: 112131429字节
- 数据集大小: 180048487字节
配置
- pt:
- 训练集路径:
pt/train.jsonl - 测试集路径:
pt/test.jsonl
- 训练集路径:
- es:
- 训练集路径:
es/train.jsonl - 测试集路径:
es/test.jsonl
- 训练集路径:
- fr:
- 训练集路径:
fr/train.jsonl - 测试集路径:
fr/test.jsonl
- 训练集路径:
- de:
- 训练集路径:
de/train.jsonl - 测试集路径:
de/test.jsonl
- 训练集路径:
- en:
- 训练集路径:
en/train.jsonl - 测试集路径:
en/test.jsonl
- 训练集路径:
许可
- 许可证: MIT
语言
- 葡萄牙语 (pt)
- 英语 (en)
- 德语 (de)
- 法语 (fr)
- 西班牙语 (es)
标签
- 新闻
大小分类
- 10K<n<100K



