google-research-datasets/google_wellformed_query
收藏数据集卡片:Google Query-wellformedness Dataset
数据集描述
数据集摘要
Google的查询格式正确性数据集是通过众包方式对来自Paralex语料库的25,100个查询进行格式正确性标注创建的。每个查询由五名标注者进行标注,每个标注者给出1/0评分,表示查询是否格式正确。
支持的任务和排行榜
[更多信息需要]
语言
英语
数据集结构
数据实例
{rating: 0.2, content: The European Union includes how many ?}
数据字段
rating: 一个介于0-1之间的floatsentence: 需要评分的查询
数据分割
| Train | Valid | Test | |
|---|---|---|---|
| 输入句子数量 | 17500 | 3750 | 3850 |
数据集创建
策划理由
理解搜索查询是一个难题,因为它涉及处理用户普遍发出的“文字沙拉”文本。然而,如果一个查询类似于一个格式正确的问句,自然语言处理管道能够进行更准确的解释,从而减少下游的复合错误。因此,识别一个查询是否格式正确可以增强查询理解。该数据集引入了一个新的任务,即识别格式正确的自然语言问句。
源数据
使用了Paralex语料库(Fader et al., 2013),该语料库包含噪声释义问题的对。这些问题是由用户在WikiAnswers(一个问答论坛)上发布的,包括类似网络搜索查询的构造(“叶绿体的5个部分?”)和格式正确的问题(“盗窃重罪的惩罚是什么?”)。
初始数据收集和规范化
从语料库中提取的唯一查询列表中选择了25,100个查询,使得所选集合中的任意两个查询都不是释义。
源语言生产者是谁?
[更多信息需要]
标注
标注过程
查询被标注为格式正确或非格式正确的问题,如果它满足以下条件:
- 查询是语法正确的。
- 查询是一个明确的问句。
- 查询不包含拼写错误。
标注者是谁?
每个查询由五名不同的众包工作者进行标注,每个标注者给出一个二进制标签,指示查询是否格式正确。通过计算五名标注者评分的平均值,得到查询格式正确的概率。
个人和敏感信息
[更多信息需要]
使用数据的注意事项
数据集的社会影响
[更多信息需要]
偏见的讨论
[更多信息需要]
其他已知限制
[更多信息需要]
附加信息
数据集策展人
[更多信息需要]
许可信息
查询格式正确性数据集在CC BY-SA 4.0许可下发布。任何第三方内容或数据均按“原样”提供,不提供任何明示或暗示的保证。
引用信息
@InProceedings{FaruquiDas2018, title = {{Identifying Well-formed Natural Language Questions}}, author = {Faruqui, Manaal and Das, Dipanjan}, booktitle = {Proc. of EMNLP}, year = {2018} }
贡献
感谢@vasudevgupta7添加此数据集。




