CIRAL/ciral-corpus

Name: CIRAL/ciral-corpus
Creator: CIRAL
Published: 2024-08-12 18:00:00
License: 暂无描述

Hugging Face2024-08-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/CIRAL/ciral-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

CIRAL是一个用于跨语言信息检索研究的集合，涵盖四种非洲语言（豪萨语、索马里语、斯瓦希里语、约鲁巴语）。该数据集包含英语查询和由母语者手动注释的查询-段落相关性判断。数据集中的段落是从新闻网站中筛选出来的。数据集结构包括文档ID、标题、文本内容和URL。此外，数据集还提供了所有语言的英文翻译版本。

提供机构：

CIRAL

原始信息汇总

数据集概述

名称: CIRAL

目的: 用于跨语言信息检索研究，涵盖四种非洲语言。

语言:

豪萨语 (ha)
索马里语 (so)
斯瓦希里语 (sw)
约鲁巴语 (yo)

内容: 包含英语查询和由母语者手动标注的查询-段落相关性判断。

数据来源: 新闻网站的段落。

数据结构:

每个段落数据条目包括：
- docid: 文档ID
- title: 标题
- text: 内容
- url: 来源URL

翻译: 提供所有语言到英语的翻译版本，使用 NLLB 1.3B 进行翻译。

使用示例:

加载特定语言的数据集: python language = "hausa" dataset = load_dataset("ciral/ciral-corpus", language)
加载翻译后的数据集: python language = "hausa" dataset = load_dataset("ciral/ciral-corpus", language, translated=True)

许可证: Apache-2.0

5,000+

优质数据集

54 个

任务类型

进入经典数据集