five

unimelb-nlp/Multi-EuP

收藏
Hugging Face2024-02-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/unimelb-nlp/Multi-EuP
下载链接
链接失效反馈
官方服务:
资源简介:
Multi-EuP是一个新的多语言基准数据集,包含从欧洲议会收集的22K多语言文档,涵盖24种语言。该数据集旨在研究多语言信息检索(IR)环境中的公平性,以分析排名上下文中的语言和人口统计偏见。它拥有一个真实的多语言语料库,包含翻译成所有24种语言的主题,以及跨语言的相关性判断。此外,它还提供了与其文档相关的丰富人口统计信息,便于研究人口统计偏见。

The Multi-Eup is a new multilingual benchmark dataset, comprising 22K multilingual documents collected from the European Parliament, spanning 24 languages. This dataset is designed to investigate fairness in a multilingual information retrieval (IR) context to analyze both language and demographic bias in a ranking context. It boasts an authentic multilingual corpus, featuring topics translated into all 24 languages, as well as cross-lingual relevance judgments. Furthermore, it offers rich demographic information associated with its documents, facilitating the study of demographic bias.
提供机构:
unimelb-nlp
原始信息汇总

数据集概述

数据集描述

Multi-Eup是一个新的多语言基准数据集,包含从欧洲议会收集的22K多语言文档,涵盖24种语言。该数据集旨在研究多语言信息检索(IR)上下文中的公平性,分析语言和人口统计偏差在排名上下文中的影响。它具有真实的多语言语料库,涵盖所有24种语言的主题翻译,以及跨语言的相关性判断。此外,它还提供了丰富的与文档相关的人口统计信息,便于研究人口统计偏差。

数据集统计

语言 ISO代码 官方语言国家 母语使用比例 总使用比例 文档数量 每文档词数(均值/中位数)
英语 EN 英国、爱尔兰、马耳他 13% 51% 7123 286/200
德语 DE 德国、比利时、卢森堡 16% 32% 3433 180/164
法语 FR 法国、比利时、卢森堡 12% 26% 2779 296/223
意大利语 IT 意大利 13% 16% 1829 190/175
西班牙语 ES 西班牙 8% 15% 2371 232/198
波兰语 PL 波兰 8% 9% 1841 155/148
罗马尼亚语 RO 罗马尼亚 5% 5% 794 186/172
荷兰语 NL 荷兰、比利时 4% 5% 897 184/170
希腊语 EL 希腊、塞浦路斯 3% 4% 707 209/205
匈牙利语 HU 匈牙利 3% 3% 614 126/128
葡萄牙语 PT 葡萄牙 2% 3% 1176 179/167
捷克语 CS 捷克共和国 2% 3% 397 167/149
瑞典语 SV 瑞典 2% 3% 531 175/165
保加利亚语 BG 保加利亚 2% 2% 408 196/178
丹麦语 DA 丹麦 1% 1% 292 218/198
芬兰语 FI 芬兰 1% 1% 405 94/87
斯洛伐克语 SK 斯洛伐克 1% 1% 348 151/158
立陶宛语 LT 立陶宛 1% 1% 115 142/127
克罗地亚语 HR 克罗地亚 <1% <1% 524 183/164
斯洛文尼亚语 SL 斯洛文尼亚 <1% <1% 270 201/163
爱沙尼亚语 ET 爱沙尼亚 <1% <1% 58 160/158
拉脱维亚语 LV 拉脱维亚 <1% <1% 89 111/123
马耳他语 MT 马耳他 <1% <1% 178 117/115
爱尔兰语 GA 爱尔兰 <1% <1% 33 198/172

数据集结构

Multi-EuP数据集包含两个文件:辩论语料库(Debates.csv)和MEP信息(MEPs.csv)。两个文件中的MEP id可用于对齐。

辩论语料库字段

  • TEXT:辩论演讲内容。
  • NAME:发表演讲的MEP姓名。
  • PRESIDENT:MEP是否为议长。
  • MEPID:MEP在欧盟中的唯一ID。
  • LANGUAGE:文本的语言ISO代码。
  • PARTY:MEP的政治党派。
  • TEXTID:演讲文本的唯一标识符。
  • CODICT:演讲文本的唯一标识符。
  • DATE:辩论发生的日期。
  • VOD-START:演讲开始的时间戳。
  • VOD-END:演讲结束的时间戳。
  • title_X:语言X中的标题。
  • did:文本的唯一ID。
  • qid_X:语言X中标题的唯一ID。

MEP信息字段

  • fullName:MEP的全名。
  • politicalGroup:MEP的政治团体。
  • id:MEP在欧盟中的唯一标识符。
  • nationalPoliticalGroup:MEP的国家政治团体。
  • photo:MEP的肖像照片。
  • nameAudio:MEP名字的发音音频。
  • gender_Wiki:维基百科中MEP的性别。
  • gender_2017:根据europal-2017的性别。
  • gender:综合维基百科、europal-2017和手动验证的性别。
  • dateOfBirth_Wiki:维基百科中MEP的出生日期。
  • dateOfBirth_Home:MEP主页中的出生日期。
  • dateOfBirth:综合维基百科、主页和手动验证的出生日期。
  • placeOfBirth:MEP的出生地。
  • country:MEP的国籍。
  • homePage:MEP的主页链接。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作