Pile-EuroParl
收藏魔搭社区2025-10-15 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/OmniData/Pile-EuroParl
下载链接
链接失效反馈官方服务:
资源简介:
displayName: Pile-EuroParl
license:
- MIT
taskTypes:
- Natural Language Generation
- Language Modelling
mediaTypes:
- Text
labelTypes:
- English Corpus
tags: []
publisher:
- EleutherAI
publishDate: '2023-07-18'
publishUrl: https://pile.eleuther.ai/
paperUrl: ''
---
# 数据介绍
## 简介
Pile-EuroParl数据集是一个包含欧洲议会会议记录的大规模文本数据集。欧洲议会是欧洲联盟的立法机构,负责制定和通过欧盟的法律和政策。这个数据集收集了欧洲议会会议的演讲和辩论内容,涵盖了多个议题和领域。
Pile-EuroParl数据集的目的是提供一个丰富的、多样化的文本资源,用于训练和研究自然语言处理(NLP)模型。这些数据可以用于各种NLP任务,如文本生成、机器翻译、信息提取等。
Pile-EuroParl数据集的收集方式是从欧洲议会的官方记录和文件中获取。这些会议记录经过处理和整理,以确保数据的质量和可用性。
## 数据内容
### 数据说明
Pile-EuroParl数据集涵盖了4.5G的数据。
### 数据示例
```
{
"id": "245300837",
"source_id": "",
"doc_id": "141923971",
"data_type": "text",
"data_source": "pile",
"data_url": "enwiki-c4-pile-ccnews",
"content": "4. Korrupcióellenes kapcsolattartói hálózat (\n- A szavazás előtt:\nHubert Pirker\nelőadó. - (DE) Tisztelt elnök úr, biztos úr, hölgyeim és uraim! Mielőtt Önök - lehetőleg mindannyian - megszavaznák ezt a jelentést, szeretnék rövid tájékoztatást adni és egy felhívást intézni a Tanácshoz, amely ismételten nincs jelen. A tagállamok és az Európai Unió ambiciózusabb és hatékonyabb lépéseket akar tenni, és kell is tennie a korrupció ellen. Ezért hagyta jóvá az Európai Parlament, egy korrupcióellenes kapcsolattartói hálózat létrehozását. Ami az illetékes bizottságot illeti, az ezzel kapcsolatos javaslatot egyhangúlag elfogadta.\nA hálózat célja először is a tagállamok hatóságai és ügynökségei közötti együttműködés előmozdítása, másodsorban pedig, a hatékony stratégiákra vonatkozó adatcserék ösztönzése. A Tanács javaslatából, amelyet kezünkben tartunk, azonban hiányzik az ambíció, foghíjas, így aztán felesleges, úgy ahogy van. A Parlament ezért számos, nagyon jelentős módosítást nyújtott be, amelyek, mint ahogy korábban mondtam, a bizottság egyhangú támogatását élvezik.\nElőször is, az OLAF, az Europol és az Eurojust a hálózat szerves részét kell, hogy képezzék, ezért kérjük részvételük kötelezővé tételét. Másodszor, a hálózatnak éves jelentést kell az Európai Parlamenthez benyújtania, amely tartalmazza tevékenységét és a korrupcióellenes küzdelem és a megelőzés javítására vonatkozó gyakorlati javaslatait. Harmadszor, a közösségi költségvetésből kell minden hálózati tag költségét fedezni, annak érdekében, hogy biztosított legyen a hálózat egészének függetlensége.\nEzért kérem a Tanácsot, hogy sürgősen építse be a Parlament javaslatait, és mielőbb hozza létre a kapcsolattartói hálózatot, mert ez végre páratlan lehetőséget biztosítana az Európai Unió közös stratégiájának kialakítására és a korrupció elleni küzdelemhez megfelelő mechanizmus létrehozására.\n",
"remark": {
"pile_set_name": "EuroParl"
},
"sub_path": "europarl/train"
}
```
## 引文
```
@misc{conghui2022opendatalab,
title={OpenDataLab: Empowering General Artificial Intelligence with Open Datasets},
author={Conghui He, Wei Li, Zhenjiang Jin, Bin Wang, Chao Xu, Dahua Lin},
journal={https://opendatalab.com/},
year={2022}
}
```
## Download dataset
:modelscope-code[]{type="git"}
数据集名称: Pile-EuroParl
许可证:
- MIT
任务类型:
- 自然语言生成
- 语言建模
媒体类型:
- 文本
标签类型:
- 英语语料库
标签: []
发布方:
- EleutherAI
发布日期: '2023-07-18'
发布网址: https://pile.eleuther.ai/
论文网址: ''
---
# 数据介绍
## 简介
Pile-EuroParl数据集是一款收录欧洲议会会议记录的大规模文本数据集。欧洲议会作为欧洲联盟的立法机构,负责制定并通过欧盟的法律与政策。本数据集采集了欧洲议会会议中的演讲与辩论内容,覆盖多议题与多领域。
Pile-EuroParl数据集旨在提供丰富多元的文本资源,用于自然语言处理(Natural Language Processing,NLP)模型的训练与研究,可应用于文本生成、机器翻译、信息抽取等各类NLP任务。
本数据集的采集来源为欧洲议会官方记录与文件,经系统化处理与整理,以保障数据质量与可用性。
## 数据内容
### 数据说明
Pile-EuroParl数据集涵盖4.5GB的数据。
### 数据示例
{
"数据ID": "245300837",
"源ID": "",
"文档ID": "141923971",
"数据类型": "text",
"数据来源": "pile",
"数据网址": "enwiki-c4-pile-ccnews",
"内容": "4. Korrupcióellenes kapcsolattartói hálózat (
- A szavazás előtt:
Hubert Pirker
előadó. - (DE) Tisztelt elnök úr, biztos úr, hölgyeim és uraim! Mielőtt Önök - lehetőleg mindannyian - megszavaznák ezt a jelentést, szeretnék rövid tájékoztatást adni és egy felhívást intézni a Tanácshoz, amely ismételten nincs jelen. A tagállamok és az Európai Unió ambiciózusabb és hatékonyabb lépéseket akar tenni, és kell is tennie a korrupció ellen. Ezért hagyta jóvá az Európai Parlament, egy korrupcióellenes kapcsolattartói hálózat létrehozását. Ami az illetékes bizottságot illeti, az ezzel kapcsolatos javaslatot egyhangúlag elfogadta.
A hálózat célja először is a tagállamok hatóságai és ügynökségei közötti együttműködés előmozdítása, másodsorban pedig, a hatékony stratégiákra vonatkozó adatcserék ösztönzése. A Tanács javaslatából, amelyet kezünkben tartunk, azonban hiányzik az ambíció, foghíjas, így aztán felesleges, úgy ahogy van. A Parlament ezért számos, nagyon jelentős módosítást nyújtott be, amelyek, mint ahogy korábban mondtam, a bizottság egyhangú támogatását élvezik.
Először is, az OLAF, az Europol és az Eurojust a hálózat szerves részét kell, hogy képezzék, ezért kérjük részvételük kötelezővé tételét. Másodszor, a hálózatnak éves jelentést kell az Európai Parlamenthez benyújtania, amely tartalmazza tevékenységét és a korrupcióellenes küzdelem és a megelőzés javítására vonatkozó gyakorlati javaslatait. Harmadszor, a közösségi költségvetésből kell minden hálózati tag költségét fedezni, annak érdekében, hogy biztosított legyen a hálózat egészének függetlensége.
Ezért kérem a Tanácsot, hogy sürgősen építse be a Parlament javaslatait, és mielőbb hozza létre a kapcsolattartói hálózatot, mert ez végre páratlan lehetőséget biztosítana az Európai Unió közös stratégiájának kialakítására és a korrupció elleni küzdelemhez megfelelő mechanizmus létrehozására.
",
"备注": {
"数据集名称": "EuroParl"
},
"子路径": "europarl/train"
}
## 引文
@misc{conghui2022opendatalab,
title={OpenDataLab: Empowering General Artificial Intelligence with Open Datasets},
author={Conghui He, Wei Li, Zhenjiang Jin, Bin Wang, Chao Xu, Dahua Lin},
journal={https://opendatalab.com/},
year={2022}
}
## 下载数据集
:modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-07-11



