coastalcph/eu_debates

Name: coastalcph/eu_debates
Creator: coastalcph
Published: 2024-03-21 09:04:38
License: 暂无描述

Hugging Face2024-03-21 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/coastalcph/eu_debates

下载链接

链接失效反馈

官方服务：

资源简介：

EU Debates数据集是一个包含欧洲议会2009年至2023年期间约87,000次演讲的语料库，涵盖了23种欧盟官方语言。数据集从欧洲议会全体会议官方网站抓取，所有演讲都带有时间戳，并按辩论主题组织，包含演讲者身份（全名、所属党派、角色）和辩论（日期和标题）的元数据。较旧的辩论演讲最初为英文，而较新的演讲则使用23种欧盟官方语言，因此当缺少官方翻译时，数据集还提供了使用EasyNMT框架和M2M2-100模型生成的英文翻译版本。

提供机构：

coastalcph

原始信息汇总

数据集概述

数据集名称: EU Debates

数据集描述: EU Debates是一个包含欧洲议会辩论的语料库，由Chalkidis和Brandl于2024年发布。该数据集包含约87,000个独立演讲，时间跨度为2009至2023年。数据来源于欧洲议会全体会议官方网站，所有演讲均按时间戳和主题组织，并包含与演讲者身份（全名、欧洲政党隶属关系、演讲者角色）和辩论（日期和标题）相关的元数据。

语言: 该数据集支持多种语言，包括但不限于：bg, cs, da, de, el, en, es, et, fi, fr, hr, hu, it, lt, lv, mt, nl, pl, pt, ro, sk, sl, sv。

数据集大小: 10K<n<100K

许可证: cc-by-nc-sa-4.0

数据字段

speaker_name: 演讲者全名，字符串类型。
speaker_party: 演讲者隶属的欧洲政党名称，字符串类型。
speaker_role: 演讲者角色，如欧洲议会议员(MEP)、欧洲议会主席等，字符串类型。
debate_title: 欧洲议会辩论标题，字符串类型。
date: 演讲日期，格式为YYYY-MM-DD，字符串类型。
year: 演讲年份，四位数年份，字符串类型。
text: 演讲全文，字符串类型。
translated_text: 如果原始语言不是英语，则提供英语翻译，字符串类型。

数据实例示例

{ speaker_name: Michèle Striffler, speaker_party: PPE, speaker_role: MEP, debate_title: Famine in East Africa (debate), date: 2011-09-15, year: 2011, text: "Monsieur le Président, Madame le Commissaire, chers collègues, la situation humanitaire sans précédent que connaît la Corne de lAfrique continue [...]", translated_text: Mr. President, Mr. Commissioner, dear colleagues, the unprecedented humanitarian situation of the Horn of Africa continues [...] }

数据集统计

欧洲政党演讲分布:
- EPP: 25,455 (29%)
- S&D: 20,042 (23%)
- ALDE: 8,946 (10%)
- ECR: 7,493 (9%)
- ID: 6,970 (8%)
- GUE/NGL: 6,780 (8%)
- Greens/EFA: 6,398 (7%)
- NI: 5,127 (6%)
- 总计: 87,221
按年份和欧洲政党划分的演讲分布: 数据详细展示了每年各欧洲政党的演讲数量。
按语言划分的演讲分布:
- en: 40,736 (46.7%)
- de: 6,497 (7.5%)
- fr: 6,024 (6.9%)
- es: 5,172 (5.9%)
- it: 4,506 (5.2%)
- pl: 3,792 (4.4%)
- pt: 2,713 (3.1%)
- ro: 2,308 (2.7%)
- el: 2,290 (2.6%)
- nl: 2,286 (2.6%)
- hu: 1,661 (1.9%)
- hr: 1,509 (1.7%)
- cs: 1,428 (1.6%)
- sv: 1,210 (1.4%)
- bg: 928 (1.1%)
- sk: 916 (1.1%)
- sl: 753 (0.9%)
- fi: 693 (0.8%)
- lt: 618 (0.7%)
- da: 578 (0.7%)
- et: 342 (0.4%)
- lv: 184 (0.2%)
- mt: 0 (0.0%)

引用信息

作者: Ilias Chalkidis 和 Stephanie Brandl
标题: Llama meets EU: Investigating the European political spectrum through the lens of LLMs
会议: 2024年北美计算语言学协会年会
日期: 2024年6月16日至21日
地点: 墨西哥城, 墨西哥
出版商: 计算语言学协会

@inproceedings{chalkidis-and-brandl-eu-llama-2024, title = "Llama meets EU: Investigating the European political spectrum through the lens of LLMs", author = "Chalkidis, Ilias and Brandl, Stephanie", booktitle = "Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics", month = jun, year = "2024", address = "Mexico City, Mexico", publisher = "Association for Computational Linguistics", }

搜集汇总

数据集介绍

构建方式

在政治语言学与计算社会科学交叉领域，EU Debates数据集通过系统化采集欧洲议会全体会议公开辩论记录构建而成。研究团队基于Chalkidis与Brandl（2024）的设计框架，对欧洲议会官方网站2009至2023年间的议事内容进行了全面爬取与整理，最终形成约8.7万条独立演讲数据。每条记录均包含精确的时间戳、辩论主题分类及演讲者元数据（姓名、党派归属、角色职能）。针对欧盟23种官方语言的多语种特性，数据集采用EasyNMT框架与M2M2-100模型对非英语演讲进行了机器翻译补充，构建了完整的双语平行语料库。

使用方法

研究者可通过HuggingFace数据集库的标准接口快速加载该语料库，使用load_dataset函数指定数据集路径与切分方式即可获取结构化数据。数据实例以字典形式呈现，支持基于政党属性、时间区间、语言类型等元数据的多维筛选与分析。在政治话语分析场景中，可结合演讲者党派标签研究意识形态表达模式；机器翻译研究则可利用原文与译文字段构建评估语料。该数据集兼容主流自然语言处理流程，能够为跨语言政治文本挖掘、议会话语演变追踪等研究提供标准化数据支撑。

背景与挑战

背景概述

欧洲议会辩论数据集（EU Debates）由Ilias Chalkidis与Stephanie Brandl于2024年构建并发布，收录了2009年至2023年间约8.7万条欧洲议会全体会议辩论发言。该数据集源于对欧盟官方议会网站的详尽爬取，旨在为政治学、计算社会科学及自然语言处理领域提供多语言、时间序列化的议会话语资源。其核心研究问题聚焦于通过大规模语料分析欧洲政治光谱的动态演变，特别是跨党派、跨语言的政治立场表达，为理解欧盟决策机制与跨国政治话语模式提供了实证基础。该数据集通过整合发言者身份、党派归属及辩论主题等元数据，显著促进了政治文本挖掘、多语言模型评估及比较政治研究的发展。

当前挑战

该数据集致力于解决多语言政治文本分析中的核心挑战：如何系统性地捕捉欧盟多元政治环境下的意识形态差异与话语演变。具体而言，其面临的领域问题挑战包括：跨23种官方语言的语义对齐与比较分析、时间跨度内政治议题的动态追踪，以及党派立场在多语言语境下的量化建模。在构建过程中，挑战主要体现为多源异构数据的整合与清洗，尤其是早期辩论仅以英语记录，而后期则呈现语言多样性，需通过机器翻译（如M2M2-100模型）实现语料统一；同时，确保发言者元数据（如党派归属与角色）的准确映射，以及处理非结构化辩论文本的主题一致性，均为构建高质量语料库的关键难点。

常用场景

经典使用场景

在政治学与计算语言学的交叉领域，欧洲议会辩论数据集为研究者提供了分析多语言政治话语的珍贵素材。该数据集收录了2009年至2023年间约8.7万条议会演讲，涵盖23种欧盟官方语言，并附有演讲者政党、角色及辩论主题等元数据。其经典应用场景在于支持大规模政治立场检测、政党意识形态光谱建模以及跨语言议会议题演化分析，为量化政治研究提供了结构化、时序性的文本基础。

解决学术问题

该数据集有效应对了欧洲政治研究中多语言语料匮乏的挑战，通过提供机器翻译文本，缓解了跨语言比较的分析障碍。它在学术上主要解决了政党联盟动态追踪、政治修辞模式识别以及立法机构话语多样性度量等问题。其意义在于首次以统一格式整合了长期、多语言的欧盟议会辩论记录，使得研究者能够系统性考察欧洲一体化进程中的政治共识与分歧，推动了计算社会科学方法在比较政治学中的深化应用。

实际应用

在实际应用层面，该数据集可服务于政策分析机构、媒体智库以及跨国企业。例如，通过分析不同政党对气候政策、经济治理等议题的表述差异，能够预测立法动向与联盟形成趋势。同时，其多语言特性有助于开发面向欧盟公民的多语种政策信息摘要系统，提升立法透明度。此外，数据集还可用于训练面向政治领域的机器翻译与文本生成模型，优化跨语言政务沟通效率。

数据集最近研究