baobab-trees/wikipedia-human-retrieval-ja
收藏Hugging Face2024-03-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/baobab-trees/wikipedia-human-retrieval-ja
下载链接
链接失效反馈官方服务:
资源简介:
Japanese Wikipedia Human Retrieval数据集是一个基于日文维基百科的问答数据集,由经过训练的人工工作者通过检索维基百科文章来构建答案。每个条目代表一个问答会话,包含问题句子、最终答案段落以及引用列表。数据集分为answered和not_answered两个部分,分别包含成功回答和未能回答的会话。数据集的目的是确保答案仅反映引用中的确切信息,而不包含任何外部信息或隐含知识。
Japanese Wikipedia Human Retrieval数据集是一个基于日文维基百科的问答数据集,由经过训练的人工工作者通过检索维基百科文章来构建答案。每个条目代表一个问答会话,包含问题句子、最终答案段落以及引用列表。数据集分为answered和not_answered两个部分,分别包含成功回答和未能回答的会话。数据集的目的是确保答案仅反映引用中的确切信息,而不包含任何外部信息或隐含知识。
提供机构:
baobab-trees
原始信息汇总
Japanese Wikipedia Human Retrieval dataset 概述
数据集基本信息
- 许可证: Apache-2.0
- 任务类别: 问答
- 语言: 日语
- 数据集大小: 1K<n<10K
数据集描述
- 数据集目的: 该数据集旨在确保答案仅反映引用的参考资料中的确切信息,不包含任何外部信息或隐含知识,用于精确检索给定数据源的问答任务研究。
- 数据收集过程: 每个条目代表一个单独的问答会话,工作人员通过维基百科的搜索框和/或内部超链接搜索相关信息,并根据搜索结果构建答案段落。整个检索过程由同一名工作人员手动记录。
- 数据集内容:
- 每个条目包含:
- 问题句子
- 最终答案段落(完整句子和带有引用的片段)
- 参考列表,包含从维基百科文章中提取的段落或总结
- 每个条目包含:
数据集结构
- 数据条目结构: js { "id": number, "question": string, "answer": { "text": string, "sentences": [ { "text": string, "citations": number[] } ] }, "references": [ { "search": { "keywords": string[] }, "link": { "referrer": number }, "page": { "title": string, "url": string, "quote": { "text": string }, "summary": { "text": string, "method": string } }, "not_found": { "url": string } } ] }
数据集版本与分块
- 数据集分块:
- "answered" 块(838个示例):包含问题、答案和检索过程
- "not_answered" 块(433个示例):包含问题和检索过程(无答案)
贡献者
- Yusuke Oda: 定义数据集规范、数据结构和数据收集方案
- Baobab, Inc.: 负责数据收集、数据检查和格式化



