five

baobab-trees/wikipedia-human-retrieval-ja

收藏
Hugging Face2024-03-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/baobab-trees/wikipedia-human-retrieval-ja
下载链接
链接失效反馈
官方服务:
资源简介:
Japanese Wikipedia Human Retrieval数据集是一个基于日文维基百科的问答数据集,由经过训练的人工工作者通过检索维基百科文章来构建答案。每个条目代表一个问答会话,包含问题句子、最终答案段落以及引用列表。数据集分为answered和not_answered两个部分,分别包含成功回答和未能回答的会话。数据集的目的是确保答案仅反映引用中的确切信息,而不包含任何外部信息或隐含知识。

Japanese Wikipedia Human Retrieval数据集是一个基于日文维基百科的问答数据集,由经过训练的人工工作者通过检索维基百科文章来构建答案。每个条目代表一个问答会话,包含问题句子、最终答案段落以及引用列表。数据集分为answered和not_answered两个部分,分别包含成功回答和未能回答的会话。数据集的目的是确保答案仅反映引用中的确切信息,而不包含任何外部信息或隐含知识。
提供机构:
baobab-trees
原始信息汇总

Japanese Wikipedia Human Retrieval dataset 概述

数据集基本信息

  • 许可证: Apache-2.0
  • 任务类别: 问答
  • 语言: 日语
  • 数据集大小: 1K<n<10K

数据集描述

  • 数据集目的: 该数据集旨在确保答案仅反映引用的参考资料中的确切信息,不包含任何外部信息或隐含知识,用于精确检索给定数据源的问答任务研究。
  • 数据收集过程: 每个条目代表一个单独的问答会话,工作人员通过维基百科的搜索框和/或内部超链接搜索相关信息,并根据搜索结果构建答案段落。整个检索过程由同一名工作人员手动记录。
  • 数据集内容:
    • 每个条目包含:
      • 问题句子
      • 最终答案段落(完整句子和带有引用的片段)
      • 参考列表,包含从维基百科文章中提取的段落或总结

数据集结构

  • 数据条目结构: js { "id": number, "question": string, "answer": { "text": string, "sentences": [ { "text": string, "citations": number[] } ] }, "references": [ { "search": { "keywords": string[] }, "link": { "referrer": number }, "page": { "title": string, "url": string, "quote": { "text": string }, "summary": { "text": string, "method": string } }, "not_found": { "url": string } } ] }

数据集版本与分块

  • 数据集分块:
    • "answered" 块(838个示例):包含问题、答案和检索过程
    • "not_answered" 块(433个示例):包含问题和检索过程(无答案)

贡献者

  • Yusuke Oda: 定义数据集规范、数据结构和数据收集方案
  • Baobab, Inc.: 负责数据收集、数据检查和格式化
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作