five

CIRAL/ciral

收藏
Hugging Face2024-08-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CIRAL/ciral
下载链接
链接失效反馈
官方服务:
资源简介:
CIRAL数据集是一个专为跨语言信息检索研究设计的集合,特别关注四种非洲语言:豪萨语、索马里语、斯瓦希里语和约鲁巴语。该数据集包含英语查询以及与非洲语言段落的相关性判断,旨在促进跨语言信息检索技术的发展。

CIRAL数据集是一个专为跨语言信息检索研究设计的集合,特别关注四种非洲语言:豪萨语、索马里语、斯瓦希里语和约鲁巴语。该数据集包含英语查询以及与非洲语言段落的相关性判断,旨在促进跨语言信息检索技术的发展。
提供机构:
CIRAL
原始信息汇总

数据集概述

基本信息

  • 名称: CIRAL
  • 目的: 用于跨语言信息检索研究,涵盖四种非洲语言。
  • 语言: 哈萨克语 (ha), 索马里语 (so), 斯瓦希里语 (sw), 约鲁巴语 (yo)
  • 许可: Apache-2.0

数据集内容

  • 组成: 包含英语查询和非洲语言段落的查询-段落相关性判断。
  • 数据结构:
    • 查询文件位于 ciral-{lang}/topics,格式为 .tsv,每行格式为 qid query
    • 判断文件位于 ciral-{lang}/qrels,格式为标准TREC格式,每行格式为 qid Q0 docid relevance

使用方法

  • 直接下载: 文件可通过指定路径下载。

  • 通过datasets库访问: python ciral_dataset = load_dataset("ciral/ciral", "hausa") # 或 swahili, somali, yoruba

    示例代码展示了如何加载数据集并访问查询ID、查询内容、正负相关段落等信息。

引用信息

  • 引用格式:

    @misc{CiralHfCite, title = {{CIRAL: A Test Suite for {CLIR} in {A}frican Languages}}, author = {Mofetoluwa Adeyemi and Akintunde Oladipo and Xinyu Zhang and David Alfonso-Hermelo and Mehdi Rezagholizadeh and Boxing Chen and Jimmy Lin}, year = 2023, url = {https://huggingface.co/datasets/CIRAL/ciral}, urldate = {2023-12-19} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作