pchristm/conv_questions
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/pchristm/conv_questions
下载链接
链接失效反馈官方服务:
资源简介:
ConvQuestions是第一个针对知识图谱的对话式问答的现实基准数据集。它包含11,200个对话,可以在Wikidata上进行评估。这些对话由Amazon Mechanical Turk上的70名Master crowdworkers创建,涵盖五个领域:书籍、电影、音乐、足球和电视剧。问题涉及复杂的问答现象,如比较、聚合、组合性和时间推理。答案基于Wikidata实体,以确保不同方法之间的公平比较。数据集的创建过程尽可能自然,标注者从五个领域中选择自己感兴趣的实体,并在一次会话中完成整个对话的构建。每个对话中的所有问题都由同一个标注者提出,并提供了问题的黄金答案。为了适应知识图谱,问题被限制为客观或事实性的,但没有其他限制性指导。ConvQuestions的一个显著特点是,一些问题无法仅通过Wikidata回答(截至2019年9月),但所需的事实可以在开放网络或维基百科中找到。
ConvQuestions是第一个针对知识图谱的对话式问答的现实基准数据集。它包含11,200个对话,可以在Wikidata上进行评估。这些对话由Amazon Mechanical Turk上的70名Master crowdworkers创建,涵盖五个领域:书籍、电影、音乐、足球和电视剧。问题涉及复杂的问答现象,如比较、聚合、组合性和时间推理。答案基于Wikidata实体,以确保不同方法之间的公平比较。数据集的创建过程尽可能自然,标注者从五个领域中选择自己感兴趣的实体,并在一次会话中完成整个对话的构建。每个对话中的所有问题都由同一个标注者提出,并提供了问题的黄金答案。为了适应知识图谱,问题被限制为客观或事实性的,但没有其他限制性指导。ConvQuestions的一个显著特点是,一些问题无法仅通过Wikidata回答(截至2019年9月),但所需的事实可以在开放网络或维基百科中找到。
提供机构:
pchristm
原始信息汇总
数据集概述
数据集名称
- 名称: ConvQuestions
数据集描述
- 描述: ConvQuestions 是一个用于知识图谱上对话式问答的基准数据集,包含11,200个对话,涉及五个领域:书籍、电影、足球、音乐和电视系列。数据集由70名亚马逊机械土耳其大师级工人编译,每个对话由同一名工人提供的问题和答案组成。
语言
- 语言: 英语 (en-US)
许可
- 许可: Creative Commons Attribution 4.0 International License (cc-by-4.0)
多语言性
- 多语言性: 单语种
大小分类
- 大小: 10,000 < n < 100,000
源数据集
- 源数据: 原始数据
任务类别
- 任务类别: 问答、文本生成、填空
任务ID
- 任务ID: 开放领域问答、对话建模
数据集结构
数据实例
- 实例描述: 每个实例包含领域、种子实体、种子实体文本、问题列表、答案列表和答案文本列表。
数据字段
- 字段:
domain: 字符串seed_entity: 字符串seed_entity_text: 字符串questions: 字符串列表answers: 字符串列表的列表answer_texts: 字符串列表
数据分割
- 分割:
train: 6720个实例validation: 2240个实例test: 2240个实例
数据集创建
注释过程
- 注释者: 本地学生和亚马逊机械土耳其大师工人
- 过程: 每个工人被要求从任意种子实体开始,构建一个包含五个连续问题的对话。
许可信息
- 许可: Creative Commons Attribution 4.0 International License
引用信息
@InProceedings{christmann2019look, title={Look before you hop: Conversational question answering over knowledge graphs using judicious context expansion}, author={Christmann, Philipp and Saha Roy, Rishiraj and Abujabal, Abdalghani and Singh, Jyotsna and Weikum, Gerhard}, booktitle={Proceedings of the 28th ACM International Conference on Information and Knowledge Management}, pages={729--738}, year={2019} }
搜集汇总
数据集介绍

背景与挑战
背景概述
ConvQuestions是一个用于知识图谱上对话式问答的现实基准数据集,包含11,200个对话,覆盖书籍、电影、音乐、足球和电视系列五个领域。数据集由70名Amazon Mechanical Turk的众包工作者创建,问题涉及比较、聚合、组合和时间推理等多种复杂现象,答案基于Wikidata实体。
以上内容由遇见数据集搜集并总结生成



