coastalcph/eu_debates
收藏数据集概述
数据集名称: EU Debates
数据集描述: EU Debates是一个包含欧洲议会辩论的语料库,由Chalkidis和Brandl于2024年发布。该数据集包含约87,000个独立演讲,时间跨度为2009至2023年。数据来源于欧洲议会全体会议官方网站,所有演讲均按时间戳和主题组织,并包含与演讲者身份(全名、欧洲政党隶属关系、演讲者角色)和辩论(日期和标题)相关的元数据。
语言: 该数据集支持多种语言,包括但不限于:bg, cs, da, de, el, en, es, et, fi, fr, hr, hu, it, lt, lv, mt, nl, pl, pt, ro, sk, sl, sv。
数据集大小: 10K<n<100K
许可证: cc-by-nc-sa-4.0
数据字段
speaker_name: 演讲者全名,字符串类型。speaker_party: 演讲者隶属的欧洲政党名称,字符串类型。speaker_role: 演讲者角色,如欧洲议会议员(MEP)、欧洲议会主席等,字符串类型。debate_title: 欧洲议会辩论标题,字符串类型。date: 演讲日期,格式为YYYY-MM-DD,字符串类型。year: 演讲年份,四位数年份,字符串类型。text: 演讲全文,字符串类型。translated_text: 如果原始语言不是英语,则提供英语翻译,字符串类型。
数据实例示例
{ speaker_name: Michèle Striffler, speaker_party: PPE, speaker_role: MEP, debate_title: Famine in East Africa (debate), date: 2011-09-15, year: 2011, text: "Monsieur le Président, Madame le Commissaire, chers collègues, la situation humanitaire sans précédent que connaît la Corne de lAfrique continue [...]", translated_text: Mr. President, Mr. Commissioner, dear colleagues, the unprecedented humanitarian situation of the Horn of Africa continues [...] }
数据集统计
-
欧洲政党演讲分布:
- EPP: 25,455 (29%)
- S&D: 20,042 (23%)
- ALDE: 8,946 (10%)
- ECR: 7,493 (9%)
- ID: 6,970 (8%)
- GUE/NGL: 6,780 (8%)
- Greens/EFA: 6,398 (7%)
- NI: 5,127 (6%)
- 总计: 87,221
-
按年份和欧洲政党划分的演讲分布: 数据详细展示了每年各欧洲政党的演讲数量。
-
按语言划分的演讲分布:
- en: 40,736 (46.7%)
- de: 6,497 (7.5%)
- fr: 6,024 (6.9%)
- es: 5,172 (5.9%)
- it: 4,506 (5.2%)
- pl: 3,792 (4.4%)
- pt: 2,713 (3.1%)
- ro: 2,308 (2.7%)
- el: 2,290 (2.6%)
- nl: 2,286 (2.6%)
- hu: 1,661 (1.9%)
- hr: 1,509 (1.7%)
- cs: 1,428 (1.6%)
- sv: 1,210 (1.4%)
- bg: 928 (1.1%)
- sk: 916 (1.1%)
- sl: 753 (0.9%)
- fi: 693 (0.8%)
- lt: 618 (0.7%)
- da: 578 (0.7%)
- et: 342 (0.4%)
- lv: 184 (0.2%)
- mt: 0 (0.0%)
引用信息
- 作者: Ilias Chalkidis 和 Stephanie Brandl
- 标题: Llama meets EU: Investigating the European political spectrum through the lens of LLMs
- 会议: 2024年北美计算语言学协会年会
- 日期: 2024年6月16日至21日
- 地点: 墨西哥城, 墨西哥
- 出版商: 计算语言学协会
@inproceedings{chalkidis-and-brandl-eu-llama-2024, title = "Llama meets EU: Investigating the European political spectrum through the lens of LLMs", author = "Chalkidis, Ilias and Brandl, Stephanie", booktitle = "Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics", month = jun, year = "2024", address = "Mexico City, Mexico", publisher = "Association for Computational Linguistics", }




