Human question data set

github2022-11-16 更新2024-05-31 收录

下载链接：

https://github.com/anselmrothe/question_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含在Rothe, Lake, & Gureckis (2016)的实验1中收集的人类自然语言问题。数据集中的每个问题都是在部分揭示的游戏板情境下由人提出的。数据集详细记录了每个问题的上下文信息、问题类型和具体内容。

This dataset comprises human natural language questions collected in Experiment 1 of Rothe, Lake, & Gureckis (2016). Each question in the dataset was posed by individuals within the context of a partially revealed game board. The dataset meticulously documents the contextual information, question types, and specific content of each inquiry.

创建时间：

2017-11-04

原始信息汇总

人类问题数据集概述

数据集描述

本数据集来源于Rothe, Lake, & Gureckis (2016)的实验1，包含605个自然语言问题及其相关信息。

数据文件

df.allBySubj.csv: 包含所有605个问题及额外信息。

数据结构

主要列信息

trial: 上下文ID，对应部分揭示的游戏板。
subj: 参与者ID。
bin: 问题的程序表示。
type: 程序表示的功能。
paras: 程序表示的参数数量。
paras_1, paras_2, paras_3: 程序表示的参数。
full: 标准化示例问题。
text: 参与者生成的实际问题文本。

附加文件

questions_clean/: 清洗后的问题文本。
questions_raw/: 所有生成的问题，包括被丢弃的模糊或无效问题。

上下文信息

部分揭示的游戏板图像和编码信息存储于contexts/目录。
编码说明：
- H = 隐藏
- W = 水
- B = 蓝色船只
- R = 红色船只
- P = 紫色船只

示例：试验13的编码为：

H,H,H,H,W,H H,H,H,W,R,H H,W,W,H,R,W B,H,H,W,W,H H,W,H,H,W,H H,H,H,H,H,H

搜集汇总

数据集介绍

构建方式

Human question data set的构建源于Rothe, Lake, & Gureckis (2016)的实验1，旨在研究自然语言问题的提出与评估。数据集通过实验收集了605个自然语言问题，这些问题由参与者在部分揭示的游戏板背景下提出。每个问题均与特定的游戏板情境相关联，并通过程序化的表示方法进行编码，包括问题的类型、参数及其具体内容。

使用方法

使用Human question data set时，研究者可通过分析`df.allBySubj.csv`文件中的问题数据，探索自然语言问题的生成模式及其与游戏板情境的关联。数据集中的`text`列提供了参与者实际生成的问题文本，而`full`列则展示了标准化的问题示例，便于对比分析。此外，研究者还可利用`contexts/`目录中的游戏板情境数据，进一步探讨问题生成与情境理解之间的关系。

背景与挑战

背景概述

Human question data set 是由 Rothe、Lake 和 Gureckis 在 2016 年创建的，旨在研究人类在特定情境下生成自然语言问题的行为。该数据集来源于一项实验，实验参与者在一个部分揭示的游戏板上提出问题，这些问题被记录并用于分析人类提问的模式和结构。该数据集的核心研究问题集中在自然语言生成与理解上，特别是如何通过提问来获取信息。该研究对认知科学和自然语言处理领域产生了重要影响，为理解人类信息获取策略提供了宝贵的数据支持。

当前挑战

该数据集面临的挑战主要体现在两个方面。首先，在领域问题的解决上，如何从人类生成的自然语言问题中提取出有效的语义信息，并将其与游戏板的情境相结合，是一个复杂的任务。这涉及到自然语言理解、语义解析以及情境推理等多个子问题。其次，在数据集的构建过程中，研究人员需要处理大量的原始问题数据，包括剔除模糊或无效的问题，并确保每个问题的标准化表示。这一过程不仅需要精确的标注和分类，还需要设计合理的程序化表示方法，以确保数据的可分析性和可扩展性。

常用场景

经典使用场景

Human question data set 数据集在自然语言处理和认知科学领域中被广泛用于研究人类提问行为的模式和机制。通过分析在部分揭示的游戏板背景下生成的605个自然语言问题，研究者能够深入探讨人类在信息不完整情境下的提问策略和语言表达方式。

解决学术问题

该数据集为解决自然语言生成和理解中的关键问题提供了宝贵资源。通过研究人类在特定情境下的提问行为，数据集帮助学者揭示了语言生成中的认知过程，尤其是在信息不完整或模糊情境下的提问策略。这对于开发更智能的问答系统和自然语言处理模型具有重要意义。

实际应用

在实际应用中，Human question data set 数据集被用于训练和评估问答系统、聊天机器人以及其他自然语言处理工具。通过模拟人类在信息不完整情境下的提问行为，这些系统能够更好地理解和生成自然语言问题，从而提升用户体验和交互效果。

数据集最近研究