Qsnail

Name: Qsnail
Creator: 中国科学院计算技术研究所人工智能安全与治理重点实验室
Published: 2024-02-22 12:14:10
License: 暂无描述

arXiv2024-02-22 更新2024-06-21 收录

下载链接：

https://github.com/LeiyanGithub/qsnail

下载链接

链接失效反馈

官方服务：

资源简介：

Qsnail是由中国科学院计算技术研究所人工智能安全与治理重点实验室创建的首个专门用于问卷生成任务的数据集，包含13,168份从在线平台收集的人工编写问卷。该数据集涵盖了11个不同的应用领域，总计约184,854个问题-选项对。创建过程涉及网络爬虫、数据过滤和意图重建等步骤，旨在通过提供高质量的问卷数据，推动自动问卷生成的研究。Qsnail的应用领域广泛，旨在解决问卷设计中的复杂性和自动生成问卷的挑战。

Qsnail is the first dataset specifically dedicated to questionnaire generation tasks, developed by the Key Laboratory of Artificial Intelligence Security and Governance, Institute of Computing Technology, Chinese Academy of Sciences. It contains 13,168 manually written questionnaires collected from online platforms. The dataset covers 11 distinct application domains, with a total of approximately 184,854 question-option pairs. Its construction involves procedures such as web crawling, data filtering, and intent reconstruction. The dataset aims to promote research on automatic questionnaire generation by providing high-quality questionnaire data. Qsnail has a wide range of application scenarios, and is designed to address the challenges of questionnaire design complexity and automatic questionnaire generation.

提供机构：

中国科学院计算技术研究所人工智能安全与治理重点实验室

创建时间：

2024-02-22

搜集汇总

数据集介绍

构建方式

在问卷生成这一专业研究领域，高质量数据集的匮乏长期制约着相关模型的探索与发展。Qsnail数据集的构建遵循了系统化的采集与精炼流程，其核心方法包括网络爬取、数据过滤与意图重构三个关键阶段。研究团队首先从国内主流的在线问卷平台（如问卷星和腾讯问卷）大规模爬取原始数据，随后通过关键词过滤机制剔除非问卷类表单，并利用MD5哈希值去重以保障数据多样性。尤为重要的是，为弥补原始数据中研究意图描述的缺失，团队创新性地采用ChatGPT模型对问卷内容进行自动化分析，逆向推导出对应的研究主题与子目标，从而构建了包含研究主题、意图与完整问卷结构的标准化数据对。这一严谨的构建流程最终产生了包含13,168份高质量人工撰写问卷、覆盖11个应用领域的大规模数据集。

特点

Qsnail数据集在结构与内容上呈现出鲜明的专业特性，其核心特点在于对问卷设计内在复杂约束的系统性体现。与传统的基于事实的问答数据集不同，Qsnail专注于主观性、非事实性的序列问题生成，其每个样本均严格遵循问卷设计的专业规范。该数据集深刻捕捉了问卷在问题、选项与整体结构三个层面的精细约束：问题需与研究主题及意图高度相关且具体明确；选项需与问题匹配，并满足互斥性、完备性与有序性；而问题序列则需符合从客观到主观的逻辑流，并将相似主题的问题进行合理分组。此外，数据集具有显著的规模与多样性，囊括近18.5万个问题-选项对，广泛覆盖教育、健康、金融等多个垂直领域，为模型理解并生成符合专业要求的问卷提供了坚实的数据基础。

使用方法

Qsnail数据集为评估和推进自动问卷生成技术提供了标准化的基准平台。其典型使用范式是以研究主题和自然语言描述的研究意图作为模型输入，旨在生成一系列符合前述复杂约束的序列问题及其选项。研究者在利用该数据集时，可沿袭原文提出的多层次评估框架，从问题相关性、特异性、选项合理性、序列逻辑性及背景问题完备性等多个维度，对生成模型进行自动化与人工相结合的综合评测。数据集支持多种技术路线的探索，包括但不限于：基于检索的模型（如BM25）的性能对比、传统生成模型（如GPT-2）的微调效果验证，以及大型语言模型（如ChatGPT、ChatGLM）在零样本、思维链提示（如提纲优先提示）和微调等不同设置下的能力评估。通过该数据集，研究者能够系统性地诊断现有模型在专业问卷生成任务上的优势与局限，从而引导后续研究方向的深入。

背景与挑战

背景概述

问卷作为一种专业研究方法，广泛应用于收集人类意见、态度及行为数据，支撑社会科学与市场研究的定性定量分析。然而，问卷设计需遵循复杂的结构性约束，包括问题相关性、选项互斥性与逻辑顺序，这一过程高度依赖领域知识且耗时费力。为应对自动问卷生成任务中高质量数据稀缺的挑战，中国科学院计算技术研究所的研究团队于2024年推出了Qsnail数据集。该数据集汇集了来自在线平台的13,168份人工撰写问卷，涵盖教育、健康等11个领域，包含约18.5万个问题-选项对，旨在为序列问题生成研究提供基准支持，推动自然语言处理技术在结构化文本生成方向的发展。

当前挑战

Qsnail数据集致力于解决自动问卷生成这一复杂任务，其核心挑战在于模型需同时满足多层次约束：问题必须紧扣研究主题与意图，具备明确性与特异性；选项需与问题匹配，且满足互斥、完备与有序性；整体问题序列需符合逻辑分组与流畅过渡。在构建过程中，研究团队面临数据质量把控的难题，包括从海量网络表单中筛选合格问卷、去除重复及非问卷噪声，并利用大语言模型重构隐含的研究意图，确保数据集的可靠性与多样性。现有实验表明，即使先进的大语言模型在生成问卷时，仍在多样性、特异性与结构合理性方面与人工撰写存在显著差距，凸显了该任务亟待深入探索的技术瓶颈。

常用场景

经典使用场景

在社会科学与计算语言学的交叉领域，问卷设计作为收集人类意见、态度与行为数据的关键方法论，长期依赖专业人员的经验与认知投入。Qsnail数据集的构建，为自动化问卷生成这一新兴任务提供了首个高质量基准。该数据集最经典的使用场景在于支撑序列问题生成模型的训练与评估，特别是针对大型语言模型在遵循复杂约束条件下生成连贯、专业问卷的能力测试。研究者通过输入研究主题与意图，可验证模型在问题相关性、选项匹配度及整体逻辑性等方面的表现，从而推动智能问卷设计技术的发展。

解决学术问题

Qsnail数据集主要解决了自动化问卷生成领域长期存在的数据稀缺问题，为序列问题生成研究提供了结构化、多约束的评估基准。该数据集使得研究者能够系统探究生成模型在满足问卷内在约束方面的能力，包括问题与主题意图的相关性、选项的互斥性与完备性、以及问题序列的逻辑分组与排序。通过引入细粒度的自动与人工评估指标，Qsnail促进了对于生成问卷在多样性、特异性、理性等维度的量化分析，从而揭示了现有模型（如检索模型、传统生成模型及大型语言模型）在生成专业问卷时与人类水平之间的显著差距，指明了该任务未来的研究方向。

衍生相关工作

Qsnail数据集的发布，直接激发并支撑了一系列围绕约束感知的序列问题生成的衍生研究。相关工作主要集中于探索改进大型语言模型在问卷生成任务上的性能，例如采用思维链提示方法（如提纲优先生成策略）来提升问题的特异性与整体理性。同时，针对该数据集对模型进行微调也成为重要研究方向，旨在注入领域知识以减少语义重复并增强背景问题的完整性。这些工作深化了对于复杂结构化文本生成中约束满足机制的理解，并将序列问题生成的研究范畴从传统的指代消解与会话流建模，扩展至更具挑战性的、融合多层级内在约束的专业文档生成领域。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集