unimelb-nlp/Multi-EuP

Name: unimelb-nlp/Multi-EuP
Creator: unimelb-nlp
Published: 2024-02-12 01:33:23
License: 暂无描述

Hugging Face2024-02-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/unimelb-nlp/Multi-EuP

下载链接

链接失效反馈

官方服务：

资源简介：

Multi-EuP是一个新的多语言基准数据集，包含从欧洲议会收集的22K多语言文档，涵盖24种语言。该数据集旨在研究多语言信息检索（IR）环境中的公平性，以分析排名上下文中的语言和人口统计偏见。它拥有一个真实的多语言语料库，包含翻译成所有24种语言的主题，以及跨语言的相关性判断。此外，它还提供了与其文档相关的丰富人口统计信息，便于研究人口统计偏见。

The Multi-Eup is a new multilingual benchmark dataset, comprising 22K multilingual documents collected from the European Parliament, spanning 24 languages. This dataset is designed to investigate fairness in a multilingual information retrieval (IR) context to analyze both language and demographic bias in a ranking context. It boasts an authentic multilingual corpus, featuring topics translated into all 24 languages, as well as cross-lingual relevance judgments. Furthermore, it offers rich demographic information associated with its documents, facilitating the study of demographic bias.

提供机构：

unimelb-nlp

原始信息汇总

数据集概述

数据集描述

Multi-Eup是一个新的多语言基准数据集，包含从欧洲议会收集的22K多语言文档，涵盖24种语言。该数据集旨在研究多语言信息检索（IR）上下文中的公平性，分析语言和人口统计偏差在排名上下文中的影响。它具有真实的多语言语料库，涵盖所有24种语言的主题翻译，以及跨语言的相关性判断。此外，它还提供了丰富的与文档相关的人口统计信息，便于研究人口统计偏差。

数据集统计

语言	ISO代码	官方语言国家	母语使用比例	总使用比例	文档数量	每文档词数（均值/中位数）
英语	EN	英国、爱尔兰、马耳他	13%	51%	7123	286/200
德语	DE	德国、比利时、卢森堡	16%	32%	3433	180/164
法语	FR	法国、比利时、卢森堡	12%	26%	2779	296/223
意大利语	IT	意大利	13%	16%	1829	190/175
西班牙语	ES	西班牙	8%	15%	2371	232/198
波兰语	PL	波兰	8%	9%	1841	155/148
罗马尼亚语	RO	罗马尼亚	5%	5%	794	186/172
荷兰语	NL	荷兰、比利时	4%	5%	897	184/170
希腊语	EL	希腊、塞浦路斯	3%	4%	707	209/205
匈牙利语	HU	匈牙利	3%	3%	614	126/128
葡萄牙语	PT	葡萄牙	2%	3%	1176	179/167
捷克语	CS	捷克共和国	2%	3%	397	167/149
瑞典语	SV	瑞典	2%	3%	531	175/165
保加利亚语	BG	保加利亚	2%	2%	408	196/178
丹麦语	DA	丹麦	1%	1%	292	218/198
芬兰语	FI	芬兰	1%	1%	405	94/87
斯洛伐克语	SK	斯洛伐克	1%	1%	348	151/158
立陶宛语	LT	立陶宛	1%	1%	115	142/127
克罗地亚语	HR	克罗地亚	<1%	<1%	524	183/164
斯洛文尼亚语	SL	斯洛文尼亚	<1%	<1%	270	201/163
爱沙尼亚语	ET	爱沙尼亚	<1%	<1%	58	160/158
拉脱维亚语	LV	拉脱维亚	<1%	<1%	89	111/123
马耳他语	MT	马耳他	<1%	<1%	178	117/115
爱尔兰语	GA	爱尔兰	<1%	<1%	33	198/172

数据集结构

Multi-EuP数据集包含两个文件：辩论语料库（Debates.csv）和MEP信息（MEPs.csv）。两个文件中的MEP id可用于对齐。

辩论语料库字段

TEXT：辩论演讲内容。
NAME：发表演讲的MEP姓名。
PRESIDENT：MEP是否为议长。
MEPID：MEP在欧盟中的唯一ID。
LANGUAGE：文本的语言ISO代码。
PARTY：MEP的政治党派。
TEXTID：演讲文本的唯一标识符。
CODICT：演讲文本的唯一标识符。
DATE：辩论发生的日期。
VOD-START：演讲开始的时间戳。
VOD-END：演讲结束的时间戳。
title_X：语言X中的标题。
did：文本的唯一ID。
qid_X：语言X中标题的唯一ID。

MEP信息字段

fullName：MEP的全名。
politicalGroup：MEP的政治团体。
id：MEP在欧盟中的唯一标识符。
nationalPoliticalGroup：MEP的国家政治团体。
photo：MEP的肖像照片。
nameAudio：MEP名字的发音音频。
gender_Wiki：维基百科中MEP的性别。
gender_2017：根据europal-2017的性别。
gender：综合维基百科、europal-2017和手动验证的性别。
dateOfBirth_Wiki：维基百科中MEP的出生日期。
dateOfBirth_Home：MEP主页中的出生日期。
dateOfBirth：综合维基百科、主页和手动验证的出生日期。
placeOfBirth：MEP的出生地。
country：MEP的国籍。
homePage：MEP的主页链接。

5,000+

优质数据集

54 个

任务类型

进入经典数据集