CIRAL/ciral
收藏Hugging Face2024-08-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CIRAL/ciral
下载链接
链接失效反馈官方服务:
资源简介:
CIRAL数据集是一个专为跨语言信息检索研究设计的集合,特别关注四种非洲语言:豪萨语、索马里语、斯瓦希里语和约鲁巴语。该数据集包含英语查询以及与非洲语言段落的相关性判断,旨在促进跨语言信息检索技术的发展。
CIRAL数据集是一个专为跨语言信息检索研究设计的集合,特别关注四种非洲语言:豪萨语、索马里语、斯瓦希里语和约鲁巴语。该数据集包含英语查询以及与非洲语言段落的相关性判断,旨在促进跨语言信息检索技术的发展。
提供机构:
CIRAL
原始信息汇总
数据集概述
基本信息
- 名称: CIRAL
- 目的: 用于跨语言信息检索研究,涵盖四种非洲语言。
- 语言: 哈萨克语 (ha), 索马里语 (so), 斯瓦希里语 (sw), 约鲁巴语 (yo)
- 许可: Apache-2.0
数据集内容
- 组成: 包含英语查询和非洲语言段落的查询-段落相关性判断。
- 数据结构:
- 查询文件位于
ciral-{lang}/topics,格式为.tsv,每行格式为qid query。 - 判断文件位于
ciral-{lang}/qrels,格式为标准TREC格式,每行格式为qid Q0 docid relevance。
- 查询文件位于
使用方法
-
直接下载: 文件可通过指定路径下载。
-
通过
datasets库访问: python ciral_dataset = load_dataset("ciral/ciral", "hausa") # 或 swahili, somali, yoruba示例代码展示了如何加载数据集并访问查询ID、查询内容、正负相关段落等信息。
引用信息
-
引用格式:
@misc{CiralHfCite, title = {{CIRAL: A Test Suite for {CLIR} in {A}frican Languages}}, author = {Mofetoluwa Adeyemi and Akintunde Oladipo and Xinyu Zhang and David Alfonso-Hermelo and Mehdi Rezagholizadeh and Boxing Chen and Jimmy Lin}, year = 2023, url = {https://huggingface.co/datasets/CIRAL/ciral}, urldate = {2023-12-19} }



