five

CIRAL/ciral-corpus

收藏
Hugging Face2024-08-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CIRAL/ciral-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
CIRAL是一个用于跨语言信息检索研究的集合,涵盖四种非洲语言(豪萨语、索马里语、斯瓦希里语、约鲁巴语)。该数据集包含英语查询和由母语者手动注释的查询-段落相关性判断。数据集中的段落是从新闻网站中筛选出来的。数据集结构包括文档ID、标题、文本内容和URL。此外,数据集还提供了所有语言的英文翻译版本。

CIRAL是一个用于跨语言信息检索研究的集合,涵盖四种非洲语言(豪萨语、索马里语、斯瓦希里语、约鲁巴语)。该数据集包含英语查询和由母语者手动注释的查询-段落相关性判断。数据集中的段落是从新闻网站中筛选出来的。数据集结构包括文档ID、标题、文本内容和URL。此外,数据集还提供了所有语言的英文翻译版本。
提供机构:
CIRAL
原始信息汇总

数据集概述

名称: CIRAL

目的: 用于跨语言信息检索研究,涵盖四种非洲语言。

语言:

  • 豪萨语 (ha)
  • 索马里语 (so)
  • 斯瓦希里语 (sw)
  • 约鲁巴语 (yo)

内容: 包含英语查询和由母语者手动标注的查询-段落相关性判断。

数据来源: 新闻网站的段落。

数据结构:

  • 每个段落数据条目包括:
    • docid: 文档ID
    • title: 标题
    • text: 内容
    • url: 来源URL

翻译: 提供所有语言到英语的翻译版本,使用 NLLB 1.3B 进行翻译。

使用示例:

  • 加载特定语言的数据集: python language = "hausa" dataset = load_dataset("ciral/ciral-corpus", language)

  • 加载翻译后的数据集: python language = "hausa" dataset = load_dataset("ciral/ciral-corpus", language, translated=True)

许可证: Apache-2.0

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作