five

Pile-EuroParl

收藏
魔搭社区2025-10-15 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/OmniData/Pile-EuroParl
下载链接
链接失效反馈
官方服务:
资源简介:
displayName: Pile-EuroParl license: - MIT taskTypes: - Natural Language Generation - Language Modelling mediaTypes: - Text labelTypes: - English Corpus tags: [] publisher: - EleutherAI publishDate: '2023-07-18' publishUrl: https://pile.eleuther.ai/ paperUrl: '' --- # 数据介绍 ## 简介 Pile-EuroParl数据集是一个包含欧洲议会会议记录的大规模文本数据集。欧洲议会是欧洲联盟的立法机构,负责制定和通过欧盟的法律和政策。这个数据集收集了欧洲议会会议的演讲和辩论内容,涵盖了多个议题和领域。 Pile-EuroParl数据集的目的是提供一个丰富的、多样化的文本资源,用于训练和研究自然语言处理(NLP)模型。这些数据可以用于各种NLP任务,如文本生成、机器翻译、信息提取等。 Pile-EuroParl数据集的收集方式是从欧洲议会的官方记录和文件中获取。这些会议记录经过处理和整理,以确保数据的质量和可用性。 ## 数据内容 ### 数据说明 Pile-EuroParl数据集涵盖了4.5G的数据。 ### 数据示例 ``` { "id": "245300837", "source_id": "", "doc_id": "141923971", "data_type": "text", "data_source": "pile", "data_url": "enwiki-c4-pile-ccnews", "content": "4. Korrupcióellenes kapcsolattartói hálózat (\n- A szavazás előtt:\nHubert Pirker\nelőadó. - (DE) Tisztelt elnök úr, biztos úr, hölgyeim és uraim! Mielőtt Önök - lehetőleg mindannyian - megszavaznák ezt a jelentést, szeretnék rövid tájékoztatást adni és egy felhívást intézni a Tanácshoz, amely ismételten nincs jelen. A tagállamok és az Európai Unió ambiciózusabb és hatékonyabb lépéseket akar tenni, és kell is tennie a korrupció ellen. Ezért hagyta jóvá az Európai Parlament, egy korrupcióellenes kapcsolattartói hálózat létrehozását. Ami az illetékes bizottságot illeti, az ezzel kapcsolatos javaslatot egyhangúlag elfogadta.\nA hálózat célja először is a tagállamok hatóságai és ügynökségei közötti együttműködés előmozdítása, másodsorban pedig, a hatékony stratégiákra vonatkozó adatcserék ösztönzése. A Tanács javaslatából, amelyet kezünkben tartunk, azonban hiányzik az ambíció, foghíjas, így aztán felesleges, úgy ahogy van. A Parlament ezért számos, nagyon jelentős módosítást nyújtott be, amelyek, mint ahogy korábban mondtam, a bizottság egyhangú támogatását élvezik.\nElőször is, az OLAF, az Europol és az Eurojust a hálózat szerves részét kell, hogy képezzék, ezért kérjük részvételük kötelezővé tételét. Másodszor, a hálózatnak éves jelentést kell az Európai Parlamenthez benyújtania, amely tartalmazza tevékenységét és a korrupcióellenes küzdelem és a megelőzés javítására vonatkozó gyakorlati javaslatait. Harmadszor, a közösségi költségvetésből kell minden hálózati tag költségét fedezni, annak érdekében, hogy biztosított legyen a hálózat egészének függetlensége.\nEzért kérem a Tanácsot, hogy sürgősen építse be a Parlament javaslatait, és mielőbb hozza létre a kapcsolattartói hálózatot, mert ez végre páratlan lehetőséget biztosítana az Európai Unió közös stratégiájának kialakítására és a korrupció elleni küzdelemhez megfelelő mechanizmus létrehozására.\n", "remark": { "pile_set_name": "EuroParl" }, "sub_path": "europarl/train" } ``` ## 引文 ``` @misc{conghui2022opendatalab, title={OpenDataLab: Empowering General Artificial Intelligence with Open Datasets}, author={Conghui He, Wei Li, Zhenjiang Jin, Bin Wang, Chao Xu, Dahua Lin}, journal={https://opendatalab.com/}, year={2022} } ``` ## Download dataset :modelscope-code[]{type="git"}

数据集名称: Pile-EuroParl 许可证: - MIT 任务类型: - 自然语言生成 - 语言建模 媒体类型: - 文本 标签类型: - 英语语料库 标签: [] 发布方: - EleutherAI 发布日期: '2023-07-18' 发布网址: https://pile.eleuther.ai/ 论文网址: '' --- # 数据介绍 ## 简介 Pile-EuroParl数据集是一款收录欧洲议会会议记录的大规模文本数据集。欧洲议会作为欧洲联盟的立法机构,负责制定并通过欧盟的法律与政策。本数据集采集了欧洲议会会议中的演讲与辩论内容,覆盖多议题与多领域。 Pile-EuroParl数据集旨在提供丰富多元的文本资源,用于自然语言处理(Natural Language Processing,NLP)模型的训练与研究,可应用于文本生成、机器翻译、信息抽取等各类NLP任务。 本数据集的采集来源为欧洲议会官方记录与文件,经系统化处理与整理,以保障数据质量与可用性。 ## 数据内容 ### 数据说明 Pile-EuroParl数据集涵盖4.5GB的数据。 ### 数据示例 { "数据ID": "245300837", "源ID": "", "文档ID": "141923971", "数据类型": "text", "数据来源": "pile", "数据网址": "enwiki-c4-pile-ccnews", "内容": "4. Korrupcióellenes kapcsolattartói hálózat ( - A szavazás előtt: Hubert Pirker előadó. - (DE) Tisztelt elnök úr, biztos úr, hölgyeim és uraim! Mielőtt Önök - lehetőleg mindannyian - megszavaznák ezt a jelentést, szeretnék rövid tájékoztatást adni és egy felhívást intézni a Tanácshoz, amely ismételten nincs jelen. A tagállamok és az Európai Unió ambiciózusabb és hatékonyabb lépéseket akar tenni, és kell is tennie a korrupció ellen. Ezért hagyta jóvá az Európai Parlament, egy korrupcióellenes kapcsolattartói hálózat létrehozását. Ami az illetékes bizottságot illeti, az ezzel kapcsolatos javaslatot egyhangúlag elfogadta. A hálózat célja először is a tagállamok hatóságai és ügynökségei közötti együttműködés előmozdítása, másodsorban pedig, a hatékony stratégiákra vonatkozó adatcserék ösztönzése. A Tanács javaslatából, amelyet kezünkben tartunk, azonban hiányzik az ambíció, foghíjas, így aztán felesleges, úgy ahogy van. A Parlament ezért számos, nagyon jelentős módosítást nyújtott be, amelyek, mint ahogy korábban mondtam, a bizottság egyhangú támogatását élvezik. Először is, az OLAF, az Europol és az Eurojust a hálózat szerves részét kell, hogy képezzék, ezért kérjük részvételük kötelezővé tételét. Másodszor, a hálózatnak éves jelentést kell az Európai Parlamenthez benyújtania, amely tartalmazza tevékenységét és a korrupcióellenes küzdelem és a megelőzés javítására vonatkozó gyakorlati javaslatait. Harmadszor, a közösségi költségvetésből kell minden hálózati tag költségét fedezni, annak érdekében, hogy biztosított legyen a hálózat egészének függetlensége. Ezért kérem a Tanácsot, hogy sürgősen építse be a Parlament javaslatait, és mielőbb hozza létre a kapcsolattartói hálózatot, mert ez végre páratlan lehetőséget biztosítana az Európai Unió közös stratégiájának kialakítására és a korrupció elleni küzdelemhez megfelelő mechanizmus létrehozására. ", "备注": { "数据集名称": "EuroParl" }, "子路径": "europarl/train" } ## 引文 @misc{conghui2022opendatalab, title={OpenDataLab: Empowering General Artificial Intelligence with Open Datasets}, author={Conghui He, Wei Li, Zhenjiang Jin, Bin Wang, Chao Xu, Dahua Lin}, journal={https://opendatalab.com/}, year={2022} } ## 下载数据集 :modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-07-11
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作