unimelb-nlp/Multi-EuP
收藏Hugging Face2024-02-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/unimelb-nlp/Multi-EuP
下载链接
链接失效反馈官方服务:
资源简介:
Multi-EuP是一个新的多语言基准数据集,包含从欧洲议会收集的22K多语言文档,涵盖24种语言。该数据集旨在研究多语言信息检索(IR)环境中的公平性,以分析排名上下文中的语言和人口统计偏见。它拥有一个真实的多语言语料库,包含翻译成所有24种语言的主题,以及跨语言的相关性判断。此外,它还提供了与其文档相关的丰富人口统计信息,便于研究人口统计偏见。
The Multi-Eup is a new multilingual benchmark dataset, comprising 22K multilingual documents collected from the European Parliament, spanning 24 languages. This dataset is designed to investigate fairness in a multilingual information retrieval (IR) context to analyze both language and demographic bias in a ranking context. It boasts an authentic multilingual corpus, featuring topics translated into all 24 languages, as well as cross-lingual relevance judgments. Furthermore, it offers rich demographic information associated with its documents, facilitating the study of demographic bias.
提供机构:
unimelb-nlp
原始信息汇总
数据集概述
数据集描述
Multi-Eup是一个新的多语言基准数据集,包含从欧洲议会收集的22K多语言文档,涵盖24种语言。该数据集旨在研究多语言信息检索(IR)上下文中的公平性,分析语言和人口统计偏差在排名上下文中的影响。它具有真实的多语言语料库,涵盖所有24种语言的主题翻译,以及跨语言的相关性判断。此外,它还提供了丰富的与文档相关的人口统计信息,便于研究人口统计偏差。
数据集统计
| 语言 | ISO代码 | 官方语言国家 | 母语使用比例 | 总使用比例 | 文档数量 | 每文档词数(均值/中位数) |
|---|---|---|---|---|---|---|
| 英语 | EN | 英国、爱尔兰、马耳他 | 13% | 51% | 7123 | 286/200 |
| 德语 | DE | 德国、比利时、卢森堡 | 16% | 32% | 3433 | 180/164 |
| 法语 | FR | 法国、比利时、卢森堡 | 12% | 26% | 2779 | 296/223 |
| 意大利语 | IT | 意大利 | 13% | 16% | 1829 | 190/175 |
| 西班牙语 | ES | 西班牙 | 8% | 15% | 2371 | 232/198 |
| 波兰语 | PL | 波兰 | 8% | 9% | 1841 | 155/148 |
| 罗马尼亚语 | RO | 罗马尼亚 | 5% | 5% | 794 | 186/172 |
| 荷兰语 | NL | 荷兰、比利时 | 4% | 5% | 897 | 184/170 |
| 希腊语 | EL | 希腊、塞浦路斯 | 3% | 4% | 707 | 209/205 |
| 匈牙利语 | HU | 匈牙利 | 3% | 3% | 614 | 126/128 |
| 葡萄牙语 | PT | 葡萄牙 | 2% | 3% | 1176 | 179/167 |
| 捷克语 | CS | 捷克共和国 | 2% | 3% | 397 | 167/149 |
| 瑞典语 | SV | 瑞典 | 2% | 3% | 531 | 175/165 |
| 保加利亚语 | BG | 保加利亚 | 2% | 2% | 408 | 196/178 |
| 丹麦语 | DA | 丹麦 | 1% | 1% | 292 | 218/198 |
| 芬兰语 | FI | 芬兰 | 1% | 1% | 405 | 94/87 |
| 斯洛伐克语 | SK | 斯洛伐克 | 1% | 1% | 348 | 151/158 |
| 立陶宛语 | LT | 立陶宛 | 1% | 1% | 115 | 142/127 |
| 克罗地亚语 | HR | 克罗地亚 | <1% | <1% | 524 | 183/164 |
| 斯洛文尼亚语 | SL | 斯洛文尼亚 | <1% | <1% | 270 | 201/163 |
| 爱沙尼亚语 | ET | 爱沙尼亚 | <1% | <1% | 58 | 160/158 |
| 拉脱维亚语 | LV | 拉脱维亚 | <1% | <1% | 89 | 111/123 |
| 马耳他语 | MT | 马耳他 | <1% | <1% | 178 | 117/115 |
| 爱尔兰语 | GA | 爱尔兰 | <1% | <1% | 33 | 198/172 |
数据集结构
Multi-EuP数据集包含两个文件:辩论语料库(Debates.csv)和MEP信息(MEPs.csv)。两个文件中的MEP id可用于对齐。
辩论语料库字段
TEXT:辩论演讲内容。NAME:发表演讲的MEP姓名。PRESIDENT:MEP是否为议长。MEPID:MEP在欧盟中的唯一ID。LANGUAGE:文本的语言ISO代码。PARTY:MEP的政治党派。TEXTID:演讲文本的唯一标识符。CODICT:演讲文本的唯一标识符。DATE:辩论发生的日期。VOD-START:演讲开始的时间戳。VOD-END:演讲结束的时间戳。title_X:语言X中的标题。did:文本的唯一ID。qid_X:语言X中标题的唯一ID。
MEP信息字段
fullName:MEP的全名。politicalGroup:MEP的政治团体。id:MEP在欧盟中的唯一标识符。nationalPoliticalGroup:MEP的国家政治团体。photo:MEP的肖像照片。nameAudio:MEP名字的发音音频。gender_Wiki:维基百科中MEP的性别。gender_2017:根据europal-2017的性别。gender:综合维基百科、europal-2017和手动验证的性别。dateOfBirth_Wiki:维基百科中MEP的出生日期。dateOfBirth_Home:MEP主页中的出生日期。dateOfBirth:综合维基百科、主页和手动验证的出生日期。placeOfBirth:MEP的出生地。country:MEP的国籍。homePage:MEP的主页链接。



