CIRAL/ciral-corpus
收藏Hugging Face2024-08-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CIRAL/ciral-corpus
下载链接
链接失效反馈官方服务:
资源简介:
CIRAL是一个用于跨语言信息检索研究的集合,涵盖四种非洲语言(豪萨语、索马里语、斯瓦希里语、约鲁巴语)。该数据集包含英语查询和由母语者手动注释的查询-段落相关性判断。数据集中的段落是从新闻网站中筛选出来的。数据集结构包括文档ID、标题、文本内容和URL。此外,数据集还提供了所有语言的英文翻译版本。
CIRAL是一个用于跨语言信息检索研究的集合,涵盖四种非洲语言(豪萨语、索马里语、斯瓦希里语、约鲁巴语)。该数据集包含英语查询和由母语者手动注释的查询-段落相关性判断。数据集中的段落是从新闻网站中筛选出来的。数据集结构包括文档ID、标题、文本内容和URL。此外,数据集还提供了所有语言的英文翻译版本。
提供机构:
CIRAL
原始信息汇总
数据集概述
名称: CIRAL
目的: 用于跨语言信息检索研究,涵盖四种非洲语言。
语言:
- 豪萨语 (ha)
- 索马里语 (so)
- 斯瓦希里语 (sw)
- 约鲁巴语 (yo)
内容: 包含英语查询和由母语者手动标注的查询-段落相关性判断。
数据来源: 新闻网站的段落。
数据结构:
- 每个段落数据条目包括:
docid: 文档IDtitle: 标题text: 内容url: 来源URL
翻译: 提供所有语言到英语的翻译版本,使用 NLLB 1.3B 进行翻译。
使用示例:
-
加载特定语言的数据集: python language = "hausa" dataset = load_dataset("ciral/ciral-corpus", language)
-
加载翻译后的数据集: python language = "hausa" dataset = load_dataset("ciral/ciral-corpus", language, translated=True)
许可证: Apache-2.0



