Query-wellformedness Dataset

github2024-03-22 更新2024-05-31 收录

下载链接：

https://github.com/google-research-datasets/query-wellformedness

下载链接

链接失效反馈

官方服务：

资源简介：

Google的查询wellformedness数据集是通过众包方式为Paralex语料库中的25,100个查询添加well-formedness注释创建的。每个查询由五位评分者进行1/0评分，以判断查询是否为well-formed的自然语言问题。数据集分为三个文件：train.tsv、dev.tsv和test.tsv，每个文件包含评级查询。

The wellformedness dataset of Google queries was created by crowdsourcing to add well-formedness annotations to 25,100 queries from the Paralex corpus. Each query was rated by five raters on a 1/0 scale to determine whether the query is a well-formed natural language question. The dataset is divided into three files: train.tsv, dev.tsv, and test.tsv, each containing rated queries.

创建时间：

2018-08-21

原始信息汇总

Query-wellformedness Dataset 概述

数据集描述

来源：Paralex corpus (Fader et al., 2013)
规模：包含25,100条查询
内容：每条查询均由人工标注，评估其是否为结构良好的自然语言问题，采用1/0评分系统，每个查询由五位评分者评分。
评分方式：提供每个查询的平均评分作为其wellformedness得分。

数据集结构

文件分布：
- train.tsv：17,500条查询
- dev.tsv：3,750条查询
- test.tsv：3,850条查询
数据格式：每条记录为制表符分隔的文本，包含查询及其wellformedness评分。

示例数据

查询示例：
- 查询：Which form of government is still in place in greece ?
- Wellformedness评分：1.0

引用信息

引用文献：Faruqui, Manaal and Das, Dipanjan. "Identifying Well-formed Natural Language Questions." Proc. of EMNLP, 2018.

许可证

许可证类型：CC BY-SA 4.0

联系方式

技术问题：可通过创建仓库问题进行咨询。

搜集汇总

数据集介绍

构建方式

Query-wellformedness数据集基于Paralex语料库构建，通过众包方式对25,100条查询进行了自然语言问题是否规范的标注。每条查询由五位标注者进行二元评分（1/0），最终计算其平均分作为查询的规范度得分。该数据集的构建过程详细记录在相关研究论文中，确保了标注的可靠性与一致性。

特点

该数据集包含25,100条查询，每条查询均附有五位标注者的二元评分及其平均规范度得分。数据集分为训练集、开发集和测试集，分别包含17,500、3,750和3,850条查询。查询内容涵盖广泛，从简单的事实性问题到复杂的语义结构，为研究自然语言问题的规范性提供了丰富的样本。

使用方法

数据集以TSV文件格式提供，包含查询内容及其规范度得分。用户可通过加载train.tsv、dev.tsv和test.tsv文件进行模型训练、验证和测试。每条查询的规范度得分可直接用于监督学习任务，或作为评估自然语言问题生成模型性能的基准。使用该数据集时，需引用相关研究论文以遵循学术规范。

背景与挑战

背景概述

Query-wellformedness数据集由Google于2018年创建，主要研究人员包括Manaal Faruqui和Dipanjan Das。该数据集基于Paralex语料库，包含25,100条查询，每条查询由五位标注者进行标注，判断其是否为结构良好的自然语言问题。该数据集的核心研究问题在于识别和评估自然语言查询的规范性，旨在提升自然语言处理系统对用户查询的理解能力。该数据集在自然语言处理领域具有重要影响力，特别是在问答系统和信息检索系统中，为模型训练和评估提供了宝贵的资源。

当前挑战

Query-wellformedness数据集在解决自然语言查询规范性评估问题时面临多重挑战。首要挑战在于如何定义和量化“良好结构”的自然语言问题，这需要结合语言学理论和实际应用场景进行综合判断。其次，数据集的构建过程中，标注者之间的主观差异可能导致标注结果的不一致性，如何确保标注的准确性和一致性成为关键问题。此外，数据集的多样性和覆盖范围也需进一步扩展，以应对不同语言背景和查询类型的复杂性。这些挑战不仅影响了数据集的构建质量，也对后续模型的训练和评估提出了更高的要求。

常用场景

经典使用场景

在自然语言处理领域，Query-wellformedness Dataset被广泛用于训练和评估模型，以识别和生成符合语法规则的自然语言问题。该数据集通过众包方式标注了25,100个查询的规范性评分，为研究者提供了一个标准化的基准，用于测试模型在处理自然语言查询时的表现。

解决学术问题

该数据集解决了自然语言处理中一个关键问题，即如何有效识别和生成规范的自然语言问题。通过提供大量标注数据，研究者能够开发出更精确的算法，提升问答系统和信息检索系统的性能。这对于提高人机交互的自然性和效率具有重要意义。

衍生相关工作

基于Query-wellformedness Dataset，研究者们开发了多种先进的自然语言处理模型和算法。例如，一些工作专注于改进问答系统的查询理解模块，另一些则探索了如何利用该数据集进行跨语言查询规范性的研究。这些衍生工作进一步推动了自然语言处理技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集