five

Multi-EuP

收藏
arXiv2023-11-03 更新2024-06-21 收录
下载链接:
https://github.com/jrnlp/Multi-EuP
下载链接
链接失效反馈
官方服务:
资源简介:
Multi-EuP是一个多语言基准数据集,包含从欧洲议会收集的22,000份多语言文档,涵盖24种语言。该数据集旨在研究多语言信息检索(IR)环境中的公平性,分析排名环境中的语言和人口统计偏差。数据集具有真实的多语言语料库,所有24种语言的主题都被翻译,并提供跨语言相关性判断。此外,数据集还提供与文档相关的丰富人口统计信息,便于研究人口统计偏差。该数据集适用于单语和多语IR的基准测试,并可用于探索由分词策略选择引起的语言偏差。
提供机构:
墨尔本大学计算与信息系统学院
创建时间:
2023-11-03
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作