google-research-datasets/google_wellformed_query

Name: google-research-datasets/google_wellformed_query
Creator: google-research-datasets
Published: 2024-01-18 11:04:23
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/google-research-datasets/google_wellformed_query

下载链接

链接失效反馈

官方服务：

资源简介：

Google Query-wellformedness Dataset是一个用于文本分类任务的数据集，特别是文本评分任务。该数据集包含25,100个查询，每个查询由五位标注者进行标注，判断其是否为良好形成的查询。数据集的语言为英语，标注过程通过众包完成。数据集的结构包括训练集、验证集和测试集，分别包含17,500、3,750和3,850个样本。数据集的创建目的是为了增强查询理解，特别是识别良好形成的自然语言问题。数据集的来源是Paralex语料库，该语料库包含用户在WikiAnswers上发布的噪声释义问题对。数据集的许可证为CC BY-SA 4.0。

The Google Query-wellformedness Dataset is a dataset designed for text classification tasks, particularly text scoring tasks. It contains 25,100 queries, each annotated by five annotators to determine whether the query is well-formed. The dataset is in English, and the annotation process was completed via crowdsourcing. It is split into training, validation, and test sets, which respectively contain 17,500, 3,750, and 3,850 samples. The dataset was developed to enhance query understanding, especially for identifying well-formed natural language queries. It is derived from the Paralex corpus, which consists of noisy paraphrased question pairs posted by users on WikiAnswers. The dataset is licensed under CC BY-SA 4.0.

提供机构：

google-research-datasets

原始信息汇总

数据集卡片：Google Query-wellformedness Dataset

数据集描述

数据集摘要

Google的查询格式正确性数据集是通过众包方式对来自Paralex语料库的25,100个查询进行格式正确性标注创建的。每个查询由五名标注者进行标注，每个标注者给出1/0评分，表示查询是否格式正确。

支持的任务和排行榜

[更多信息需要]

语言

英语

数据集结构

数据实例

{rating: 0.2, content: The European Union includes how many ?}

数据字段

rating: 一个介于0-1之间的float
sentence: 需要评分的查询

数据分割

	Train	Valid	Test
输入句子数量	17500	3750	3850

数据集创建

策划理由

理解搜索查询是一个难题，因为它涉及处理用户普遍发出的“文字沙拉”文本。然而，如果一个查询类似于一个格式正确的问句，自然语言处理管道能够进行更准确的解释，从而减少下游的复合错误。因此，识别一个查询是否格式正确可以增强查询理解。该数据集引入了一个新的任务，即识别格式正确的自然语言问句。

源数据

使用了Paralex语料库（Fader et al., 2013），该语料库包含噪声释义问题的对。这些问题是由用户在WikiAnswers（一个问答论坛）上发布的，包括类似网络搜索查询的构造（“叶绿体的5个部分？”）和格式正确的问题（“盗窃重罪的惩罚是什么？”）。

初始数据收集和规范化

从语料库中提取的唯一查询列表中选择了25,100个查询，使得所选集合中的任意两个查询都不是释义。

源语言生产者是谁？

[更多信息需要]

标注

标注过程

查询被标注为格式正确或非格式正确的问题，如果它满足以下条件：

查询是语法正确的。
查询是一个明确的问句。
查询不包含拼写错误。

标注者是谁？

每个查询由五名不同的众包工作者进行标注，每个标注者给出一个二进制标签，指示查询是否格式正确。通过计算五名标注者评分的平均值，得到查询格式正确的概率。

个人和敏感信息

[更多信息需要]

使用数据的注意事项

数据集的社会影响

[更多信息需要]

偏见的讨论

[更多信息需要]

其他已知限制

[更多信息需要]

附加信息

数据集策展人

[更多信息需要]

许可信息

查询格式正确性数据集在CC BY-SA 4.0许可下发布。任何第三方内容或数据均按“原样”提供，不提供任何明示或暗示的保证。

引用信息

@InProceedings{FaruquiDas2018, title = {{Identifying Well-formed Natural Language Questions}}, author = {Faruqui, Manaal and Das, Dipanjan}, booktitle = {Proc. of EMNLP}, year = {2018} }

贡献

感谢@vasudevgupta7添加此数据集。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，查询语句的规范性直接影响语义解析的准确性。Google查询规范性数据集源自Paralex语料库，从中精选了25,100条非重复查询，确保无同义表述干扰。通过众包平台，每条查询由五位标注者依据语法正确性、明确疑问形式及拼写无误三项标准进行二元标注，最终以平均评分作为查询规范性的概率度量，构建了包含训练集、验证集与测试集的完整数据框架。

特点

该数据集聚焦于查询语句的规范性评估，其核心特征在于以概率形式呈现标注结果，评分区间为0至1的浮点数，细腻地反映了不同标注者间的一致性程度。数据规模适中，涵盖约2.5万条英文查询，划分为明确的训练、验证与测试子集，为模型训练与评估提供了结构化基础。所有查询均源于真实用户生成的问答论坛内容，兼具搜索式短语与完整疑问句的多样性，体现了实际应用场景中的语言复杂性。

使用方法

本数据集适用于文本分类与评分任务，旨在训练模型自动判别自然语言查询的规范性。使用者可依据标准数据划分，利用训练集构建分类器或回归模型，通过验证集调整超参数，并在测试集上评估性能。模型输出可服务于搜索引擎查询理解、对话系统预处理等下游应用，提升自然语言处理管道对非规范输入的鲁棒性。数据以键值对形式组织，包含评分与查询内容字段，便于直接整合至主流机器学习框架进行端到端处理。

背景与挑战

背景概述

在自然语言处理领域，查询理解是搜索引擎与对话系统的核心任务之一。Google研究团队于2018年发布了Google Query-wellformedness数据集，旨在解决用户查询中普遍存在的非结构化“词语沙拉”问题。该数据集基于Paralex语料库，通过众包方式对25,100条查询进行了语法完整性标注，每条查询由五位标注者评估其是否构成良好形式的问题。这一工作由Manaal Faruqui和Dipanjan Das等研究人员主导，其核心研究问题聚焦于识别自然语言查询的语法规范性与明确性，从而提升下游任务如查询解析与问答系统的准确性。该数据集的建立为查询质量评估提供了基准，推动了语义解析与用户意图理解的研究进展。

当前挑战

该数据集致力于解决查询理解领域的关键挑战：如何从混杂、非规范的搜索查询中识别出语法正确且语义明确的自然语言问题。构建过程中的主要挑战包括：首先，源数据Paralex语料库本身包含大量噪声，需从用户生成的问答对中筛选出非重复且具有代表性的查询样本；其次，标注过程依赖众包，需确保标注者能一致性地应用语法性、明确性与拼写正确性等多重标准，而标注者主观差异可能导致评分偏差，需通过多人标注取平均来缓解。此外，查询的“良好形式”定义本身存在主观性，平衡语言学规范与实际用户表达习惯成为内在难点。

常用场景

经典使用场景

在自然语言处理领域，查询语句的规范性评估是提升搜索引擎理解能力的关键环节。Google Query-wellformedness数据集通过众包标注方式，为来自Paralex语料库的查询语句提供了规范性评分，其经典使用场景在于训练和评估文本分类模型，特别是针对查询语句是否构成语法正确、表达清晰的疑问句进行二分类或概率预测。该数据集常被用于构建端到端的查询理解管道，帮助模型区分“词沙拉”式杂乱查询与结构良好的自然语言问题，从而为下游任务如问答系统或信息检索提供更纯净的输入。

衍生相关工作

基于该数据集，学术界衍生了一系列经典研究工作。例如，原始论文《Identifying Well-formed Natural Language Questions》提出了基准模型和评估框架，启发了后续关于查询重写和规范化方法的研究。许多学者利用该数据集探索了深度学习模型如BERT在查询分类任务上的性能，并进一步扩展到多语言或跨领域适应性研究。这些工作不仅深化了查询理解的技术路径，还促进了相关数据集如Paralex的再利用，形成了以规范性评估为核心的持续研究脉络。

数据集最近研究