five

castorini/africlirmatrix

收藏
Hugging Face2022-11-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/castorini/africlirmatrix
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - af - am - arz - ha - ig - ary - nso - sn - so - sw - ti - tw - wo - yo - zu multilinguality: - multilingual task_categories: - text-retrieval license: apache-2.0 viewer: true --- # Dataset Summary AfriCLIRMatrix is a test collection for cross-lingual information retrieval research in 15 diverse African languages. This resource comprises English queries with query–document relevance judgments in 15 African languages automatically mined from Wikipedia This dataset stores documents of AfriCLIRMatrix. To access the queries and judgments, please refer to [castorini/africlirmatrix](https://github.com/castorini/africlirmatrix). # Dataset Structure The only configuration here is the `language`. An example of document data entry looks as follows: ``` { 'id': '62443', 'contents': 'Acyloin condensation jẹ́ ìyọkúrò àsopọ̀ àwọn carboxylic ester pẹ̀lú lílò metalic sodium lati ṣèdá α-hydroxyketone, tí wọ́n tún mọ̀ sí. Àdàpọ̀ ṣisẹ́ yìí jẹ́ èyí tó ...' } ``` # Load Dataset An example to load the dataset: ``` language = 'yoruba' dataset = load_dataset('castorini/africlirmatrix', language, 'train') ``` # Citation Information ``` coming soon ```
提供机构:
castorini
原始信息汇总

数据集概述

基本信息

  • 名称: AfriCLIRMatrix
  • 语言: 包含15种非洲语言,如Af、Am、Arz、Ha、Ig、Ary、Nso、Sn、So、Sw、Ti、Tw、Wo、Yo、Zu
  • 多语言性: 多语言
  • 任务类别: 文本检索
  • 许可证: Apache-2.0
  • 查看器: 可用

数据集描述

AfriCLIRMatrix是一个用于跨语言信息检索研究的测试集合,涵盖15种非洲语言。该资源包含英语查询以及从维基百科自动挖掘的15种非洲语言的查询-文档相关性判断。

数据集结构

  • 配置: 仅包含language配置

  • 文档示例:

    { id: 62443, contents: Acyloin condensation jẹ́ ìyọkúrò àsopọ̀ àwọn carboxylic ester pẹ̀lú lílò metalic sodium lati ṣèdá α-hydroxyketone, tí wọ́n tún mọ̀ sí. Àdàpọ̀ ṣisẹ́ yìí jẹ́ èyí tó ... }

数据集加载示例

language = yoruba dataset = load_dataset(castorini/africlirmatrix, language, train)

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作