five

QED|语言学数据集|问答系统数据集

收藏
github2024-03-22 更新2024-05-31 收录
语言学
问答系统
下载链接:
https://github.com/google-research-datasets/QED
下载链接
链接失效反馈
资源简介:
QED是一个语言学原则框架,用于问答中的解释。数据集包含7638个训练示例和1355个验证示例,以JSON Lines格式分布,每个示例包含问题、段落文本、句子起始位置等信息,用于解释答案的生成过程。

QED is a linguistic principle framework designed for explanations in question answering. The dataset comprises 7,638 training examples and 1,355 validation examples, distributed in JSON Lines format. Each example includes a question, a passage text, the starting position of the sentence, and other information, which are used to elucidate the process of answer generation.
创建时间:
2020-08-26
原始信息汇总

数据集概述

数据集名称

QED: A Framework and Dataset for Explanations in Question Answering

数据集作者

Matthew Lamm, Jennimaria Palomaki, Chris Alberti, Daniel Andor, Eunsol Choi, Livio Baldini Soares, Michael Collins

数据集年份

2020

数据集描述

QED是一个用于问答中解释的语言学原则框架。它将答案解释表示为一系列离散、可被人理解的人类可解释步骤,包括句子选择、指称等同和谓词蕴涵。

数据集组成

  • 训练集: 7638个例子
  • 验证集: 1355个例子

数据格式

数据以JSON Lines格式分布,每个文件包含一个QED示例。

数据集示例结构

每个QED示例包含以下字段:

  1. example_id: 唯一整数标识符,与Natural Questions数据集匹配
  2. title_text: 包含段落的维基百科页面标题
  3. url: 包含段落的维基百科页面URL
  4. question_text: 来自Natural Questions的自然语言问题字符串
  5. paragraph_text: 包含问题答案的维基百科页面段落字符串
  6. sentence_starts: 段落中句子起始的字符偏移列表
  7. original_nq_answers: Natural Questions中的原始短答案跨度
  8. annotation: QED注释,包含referential_equalities、answer、selected_sentence和explanation_type等字段

注释格式

QED注释中的每个元素,除了explanation_type外,由一个或多个跨度字典组成,至少包含start、end和string字段。

解释类型

QED中的每个实例根据其解释类型被标记为以下之一:

  • single_sentence: 存在短答案和有效的QED风格解释
  • multi_sentence: 存在有效短答案,但解释需要超过一个句子
  • none: Natural Questions标记了答案,但QED注释者发现实际上没有正确答案

解释类型分布

Train Dev
single_sentence 5,154 1,021
multi_sentence 1,702 183
none 782 151

数据来源

所有输入数据来自维基百科,根据Creative Commons Attribution-ShareAlike 3.0 Unported License (CC BY-SA)和GNU Free Documentation License (GFDL)授权公开使用。

评估脚本

提供了一个官方评估脚本qed_eval.py,用于比较验证集上的结果。该脚本期望一个预测文件,其格式与上述输入文件相同,但注释部分被预测值替换。

AI搜集汇总
数据集介绍
main_image_url
构建方式
QED数据集的构建基于一个语言学原则框架,旨在为问答系统中的答案提供解释。该框架通过三个离散且可解释的步骤来生成解释:句子选择、指代一致性和谓词蕴含。数据集中的每个示例均来自Natural Questions数据集,并附有QED风格的注释。注释过程包括对句子、指代关系和谓词蕴含的详细标注,确保每个答案的解释具有逻辑性和可解释性。数据集分为训练集和验证集,分别包含7638和1355个示例,以JSON Lines格式存储。
特点
QED数据集的特点在于其精细的注释结构和多样化的解释类型。每个示例不仅包含问题和答案,还提供了详细的解释步骤,如句子选择、指代一致性和谓词蕴含。数据集中的解释类型分为单句解释、多句解释和无解释三种,分别对应不同的答案推理需求。此外,数据集还特别处理了桥接指代这一复杂现象,确保解释的完整性和准确性。这些特点使得QED数据集在问答系统的解释生成任务中具有重要的研究价值。
使用方法
QED数据集的使用方法主要包括数据加载、模型训练和评估。数据集以JSON Lines格式提供,用户可以通过读取文件加载数据。模型训练时,可以利用数据集中的注释信息进行多任务学习,如同时预测答案和生成解释。评估阶段,用户可以使用提供的官方评估脚本`qed_eval.py`对模型性能进行测试。该脚本支持对预测结果与真实注释的对比,计算指代识别和指代对齐等指标。通过这些步骤,用户可以全面评估模型在问答解释任务中的表现。
背景与挑战
背景概述
QED数据集由Matthew Lamm等研究人员于2020年提出,旨在为问答系统提供解释性框架。该数据集基于自然语言处理领域的核心问题,即如何通过离散且可解释的步骤来解释问答系统中的答案生成过程。QED框架通过句子选择、指代一致性和谓词蕴含三个步骤,构建了一个语言学上严谨的解释模型。该数据集基于Google的Natural Questions(NQ)数据集,扩展了其解释性标注,为问答系统的可解释性研究提供了重要资源。QED的提出不仅推动了问答系统解释性研究的发展,还为自然语言处理领域的模型透明性和可解释性提供了新的研究方向。
当前挑战
QED数据集在构建过程中面临多重挑战。首先,问答系统的解释性研究本身具有复杂性,如何将答案生成过程分解为可解释的步骤,并确保这些步骤在语言学上的严谨性,是一个核心难题。其次,数据标注过程中需要处理指代一致性和谓词蕴含等复杂的语义关系,这对标注人员的语言学知识和标注一致性提出了较高要求。此外,QED数据集基于NQ数据集,但需要额外标注解释性信息,如何在保持数据质量的同时高效完成标注任务,也是构建过程中的一大挑战。最后,如何将QED框架应用于不同类型的问答任务,并确保其通用性和可扩展性,仍需进一步探索。
常用场景
经典使用场景
QED数据集在自然语言处理领域中被广泛用于解释性问答系统的开发与评估。通过提供详细的解释步骤,如句子选择、指代一致性和谓词蕴含,QED为研究者提供了一个标准化的框架,用于验证和优化问答模型的解释能力。这一数据集尤其适用于需要高透明度和可解释性的应用场景,如教育辅助系统和法律咨询平台。
解决学术问题
QED数据集解决了问答系统中解释性不足的学术问题。传统的问答模型往往只关注答案的准确性,而忽略了答案背后的推理过程。QED通过引入解释性标注,使得研究者能够深入分析模型在推理过程中的表现,从而提升模型的透明度和可信度。这一数据集的出现推动了可解释性人工智能的发展,为后续研究提供了宝贵的数据支持。
衍生相关工作
QED数据集衍生了一系列经典的研究工作,特别是在多任务学习和可解释性模型方面。例如,基于QED的多任务学习模型在联合预测答案和解释方面取得了显著进展,展示了QED数据在提升模型性能方面的潜力。此外,QED还激发了关于指代一致性和谓词蕴含的深入研究,推动了自然语言处理领域的技术创新。这些工作不仅验证了QED数据集的价值,也为未来的研究提供了新的方向。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Materials Project 在线材料数据库

Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。

超神经 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

MultiTalk

MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录

12306车次数据库

本数据库包含12306车次相关的详细信息,如车次代码、车站代码、列车基本信息和时刻表信息等。数据已按车次等级整理,并提供多种格式的数据文件,方便用户根据实际需求调用。

github 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录