five

Query-wellformedness Dataset

收藏
github2024-03-22 更新2024-05-31 收录
下载链接:
https://github.com/google-research-datasets/query-wellformedness
下载链接
链接失效反馈
官方服务:
资源简介:
Google的查询wellformedness数据集是通过众包方式为Paralex语料库中的25,100个查询添加well-formedness注释创建的。每个查询由五位评分者进行1/0评分,以判断查询是否为well-formed的自然语言问题。数据集分为三个文件:train.tsv、dev.tsv和test.tsv,每个文件包含评级查询。

The wellformedness dataset of Google queries was created by crowdsourcing to add well-formedness annotations to 25,100 queries from the Paralex corpus. Each query was rated by five raters on a 1/0 scale to determine whether the query is a well-formed natural language question. The dataset is divided into three files: train.tsv, dev.tsv, and test.tsv, each containing rated queries.
创建时间:
2018-08-21
原始信息汇总

Query-wellformedness Dataset 概述

数据集描述

  • 来源:Paralex corpus (Fader et al., 2013)
  • 规模:包含25,100条查询
  • 内容:每条查询均由人工标注,评估其是否为结构良好的自然语言问题,采用1/0评分系统,每个查询由五位评分者评分。
  • 评分方式:提供每个查询的平均评分作为其wellformedness得分。

数据集结构

  • 文件分布
    • train.tsv:17,500条查询
    • dev.tsv:3,750条查询
    • test.tsv:3,850条查询
  • 数据格式:每条记录为制表符分隔的文本,包含查询及其wellformedness评分。

示例数据

  • 查询示例
    • 查询:Which form of government is still in place in greece ?
    • Wellformedness评分:1.0

引用信息

  • 引用文献:Faruqui, Manaal and Das, Dipanjan. "Identifying Well-formed Natural Language Questions." Proc. of EMNLP, 2018.

许可证

  • 许可证类型:CC BY-SA 4.0

联系方式

  • 技术问题:可通过创建仓库问题进行咨询。
搜集汇总
数据集介绍
main_image_url
构建方式
Query-wellformedness数据集基于Paralex语料库构建,通过众包方式对25,100条查询进行了自然语言问题是否规范的标注。每条查询由五位标注者进行二元评分(1/0),最终计算其平均分作为查询的规范度得分。该数据集的构建过程详细记录在相关研究论文中,确保了标注的可靠性与一致性。
特点
该数据集包含25,100条查询,每条查询均附有五位标注者的二元评分及其平均规范度得分。数据集分为训练集、开发集和测试集,分别包含17,500、3,750和3,850条查询。查询内容涵盖广泛,从简单的事实性问题到复杂的语义结构,为研究自然语言问题的规范性提供了丰富的样本。
使用方法
数据集以TSV文件格式提供,包含查询内容及其规范度得分。用户可通过加载train.tsv、dev.tsv和test.tsv文件进行模型训练、验证和测试。每条查询的规范度得分可直接用于监督学习任务,或作为评估自然语言问题生成模型性能的基准。使用该数据集时,需引用相关研究论文以遵循学术规范。
背景与挑战
背景概述
Query-wellformedness数据集由Google于2018年创建,主要研究人员包括Manaal Faruqui和Dipanjan Das。该数据集基于Paralex语料库,包含25,100条查询,每条查询由五位标注者进行标注,判断其是否为结构良好的自然语言问题。该数据集的核心研究问题在于识别和评估自然语言查询的规范性,旨在提升自然语言处理系统对用户查询的理解能力。该数据集在自然语言处理领域具有重要影响力,特别是在问答系统和信息检索系统中,为模型训练和评估提供了宝贵的资源。
当前挑战
Query-wellformedness数据集在解决自然语言查询规范性评估问题时面临多重挑战。首要挑战在于如何定义和量化“良好结构”的自然语言问题,这需要结合语言学理论和实际应用场景进行综合判断。其次,数据集的构建过程中,标注者之间的主观差异可能导致标注结果的不一致性,如何确保标注的准确性和一致性成为关键问题。此外,数据集的多样性和覆盖范围也需进一步扩展,以应对不同语言背景和查询类型的复杂性。这些挑战不仅影响了数据集的构建质量,也对后续模型的训练和评估提出了更高的要求。
常用场景
经典使用场景
在自然语言处理领域,Query-wellformedness Dataset被广泛用于训练和评估模型,以识别和生成符合语法规则的自然语言问题。该数据集通过众包方式标注了25,100个查询的规范性评分,为研究者提供了一个标准化的基准,用于测试模型在处理自然语言查询时的表现。
解决学术问题
该数据集解决了自然语言处理中一个关键问题,即如何有效识别和生成规范的自然语言问题。通过提供大量标注数据,研究者能够开发出更精确的算法,提升问答系统和信息检索系统的性能。这对于提高人机交互的自然性和效率具有重要意义。
衍生相关工作
基于Query-wellformedness Dataset,研究者们开发了多种先进的自然语言处理模型和算法。例如,一些工作专注于改进问答系统的查询理解模块,另一些则探索了如何利用该数据集进行跨语言查询规范性的研究。这些衍生工作进一步推动了自然语言处理技术的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作