baobab-trees/wikipedia-human-retrieval-ja

Name: baobab-trees/wikipedia-human-retrieval-ja
Creator: baobab-trees
Published: 2024-03-19 04:25:44
License: 暂无描述

Hugging Face2024-03-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/baobab-trees/wikipedia-human-retrieval-ja

下载链接

链接失效反馈

官方服务：

资源简介：

Japanese Wikipedia Human Retrieval数据集是一个基于日文维基百科的问答数据集，由经过训练的人工工作者通过检索维基百科文章来构建答案。每个条目代表一个问答会话，包含问题句子、最终答案段落以及引用列表。数据集分为answered和not_answered两个部分，分别包含成功回答和未能回答的会话。数据集的目的是确保答案仅反映引用中的确切信息，而不包含任何外部信息或隐含知识。

提供机构：

baobab-trees

原始信息汇总

Japanese Wikipedia Human Retrieval dataset 概述

数据集基本信息

许可证: Apache-2.0
任务类别: 问答
语言: 日语
数据集大小: 1K<n<10K

数据集描述

数据集目的: 该数据集旨在确保答案仅反映引用的参考资料中的确切信息，不包含任何外部信息或隐含知识，用于精确检索给定数据源的问答任务研究。
数据收集过程: 每个条目代表一个单独的问答会话，工作人员通过维基百科的搜索框和/或内部超链接搜索相关信息，并根据搜索结果构建答案段落。整个检索过程由同一名工作人员手动记录。
数据集内容:
- 每个条目包含：
  - 问题句子
  - 最终答案段落（完整句子和带有引用的片段）
  - 参考列表，包含从维基百科文章中提取的段落或总结

数据集结构

数据条目结构: js { "id": number, "question": string, "answer": { "text": string, "sentences": [ { "text": string, "citations": number[] } ] }, "references": [ { "search": { "keywords": string[] }, "link": { "referrer": number }, "page": { "title": string, "url": string, "quote": { "text": string }, "summary": { "text": string, "method": string } }, "not_found": { "url": string } } ] }

数据集版本与分块

数据集分块:
- "answered" 块（838个示例）：包含问题、答案和检索过程
- "not_answered" 块（433个示例）：包含问题和检索过程（无答案）

贡献者

Yusuke Oda: 定义数据集规范、数据结构和数据收集方案
Baobab, Inc.: 负责数据收集、数据检查和格式化

5,000+

优质数据集

54 个

任务类型

进入经典数据集