Critical Questions Generation Dataset
收藏arXiv2025-05-16 更新2025-05-20 收录
下载链接:
https://github.com/hitz-zentroa/ shared-task-critical-questions-generation/tree/ main/shared_task/data_splits
下载链接
链接失效反馈官方服务:
资源简介:
该数据集旨在支持批判性思维的发展,通过让系统能够生成揭示论点中假设和推理的问题。数据集由220个自然发生的论证组成,每个论证平均有22.4个参考问题。数据集通过手动注释创建,注释者根据既定指南对问题进行分类。该数据集可用于评估和基准测试大型语言模型(LLMs)在生成批判性问题的能力。数据集的创建过程包括数据收集、参考问题生成、注释和分割数据集。数据集可用于自动化推理和人类批判性思维的实际益处的研究。
This dataset is developed to support the cultivation of critical thinking, by enabling systems to generate questions that reveal the underlying assumptions and reasoning within arguments. It consists of 220 naturally occurring arguments, with an average of 22.4 reference questions per argument. The dataset was constructed through manual annotation, where annotators categorized the questions in accordance with pre-defined guidelines. This dataset can be used to evaluate and benchmark large language models (LLMs) on their ability to generate critical questions. The dataset creation workflow encompasses data collection, reference question generation, annotation, and dataset partitioning. It can also be applied to research on automated reasoning and the practical benefits of human critical thinking.
提供机构:
HiTZ Center - Ixa University of the Basque Country UPV/EHU
创建时间:
2025-05-16
搜集汇总
数据集介绍

构建方式
Critical Questions Generation Dataset(CQs-Gen)的构建过程体现了严谨的学术规范与多阶段验证机制。研究团队从四个权威论证挖掘语料库(US2016、Moral Maze Debates等)中筛选220个自然发生的辩论干预文本,平均每个文本标注3.1个论证方案。参考问题的生成融合了双轨策略:既采用Walton经典论证理论中的问题模板,又通过Llama-3-70B-Instruct模型进行双重提示生成,最终每个干预文本平均产生22.4个参考问题。标注流程由专业事实核查记者执行,经过三轮迭代优化标注指南,最终达到0.54的科恩卡帕系数。数据集采用双层质量控制:验证集(186个干预文本)侧重标注平衡性,测试集(34个干预文本)保留未公开参考问题以避免数据污染。
使用方法
该数据集支持多层次的科研应用:在模型评估层面,推荐采用基于参考的评估策略(如STS相似度阈值0.65或Claude模型匹配),通过问题语义匹配实现自动化评测,与人类判断的相关系数达0.48。研究显示,扩展参考问题库至平均68.64条/文本可降低5%的漏评率。在任务建模方面,建议采用两阶段流程:先识别文本的论证方案类型,再基于类型特征生成针对性问题。公开的排行榜支持持续性能追踪,而验证集可用于提示工程优化。需特别注意,生成时应避免模板化问题(如Qwen模型的证据询问模式),关注论证结构的深层次挑战。
背景与挑战
背景概述
Critical Questions Generation Dataset(CQs-Gen)是由巴斯克大学HiTZ中心的研究人员Blanca Calvo Figueras和Rodrigo Agerri于2024年提出的首个大规模人工标注数据集,旨在推动批判性思维自动化研究。该数据集聚焦于从自然语言论证文本中生成揭示逻辑漏洞或隐含假设的关键问题,其理论基础源自Walton等人提出的论证方案框架。作为论证挖掘与自然语言生成交叉领域的前沿资源,该数据集包含220条真实场景的论证文本及4976条标注问题,覆盖政治、经济等多领域议题,为评估大语言模型(LLMs)的深度推理能力提供了标准化基准。
当前挑战
该数据集面临双重挑战:在领域问题层面,关键问题生成需解决论证结构解析、逻辑谬误识别等高阶认知任务,现有模型常产生无关、泛化或非批判性问题;在构建过程中,标注需专业领域知识(如新闻事实核查经验),导致跨标注者一致性仅达0.54(Cohen Kappa)。此外,自动评估依赖参考问题匹配,但34%生成问题因缺乏匹配参考而无法评估,即便通过共享任务扩展参考库后仍有5%有效问题被遗漏,凸显评估体系对数据覆盖度的敏感性。
常用场景
经典使用场景
Critical Questions Generation Dataset(CQs-Gen)作为首个大规模人工标注的批判性问题生成数据集,其经典使用场景聚焦于评估大型语言模型(LLM)在识别论证结构缺陷和隐含假设方面的能力。在教育技术领域,研究者通过该数据集构建基准测试,量化模型生成问题的相关性、批判性和多样性,例如要求模型针对政治辩论或医学论证文本提出质疑性提问,以检验其逻辑推理深度。数据集包含的22种论证模式(如类比论证、专家意见论证)为模型提供了多维度挑战,尤其适合探究模型在复杂语义场景下的细粒度理解能力。
解决学术问题
该数据集解决了论证挖掘领域长期存在的两大问题:一是缺乏标准化评估框架导致研究可比性差,其提出的基于参考问题的LLM评估方法(如Claude_reference)与人类判断相关性达0.57,显著优于传统文本相似度指标;二是填补了批判性问题生成任务的数据空白,通过220个自然语言论证文本及4976个标注问题(60.91%被标记为有效),为研究论证逻辑脆弱性检测提供了可量化的实验基础。其标注体系严格区分问题有效性(有用/无效/无帮助),推动了论证质量评估的细粒度研究。
实际应用
在实际应用中,该数据集支撑了教育智能和事实核查系统的开发。在线学习平台集成基于CQs-Gen训练的模块,可自动生成针对学生议论文的质疑问题,培养批判性思维技能(如质疑"专家意见论证"中的权威可信度)。在虚假信息对抗领域,FactCheck.org等组织利用类似技术快速识别新闻论证中的逻辑谬误,例如通过生成"该统计数据是否考虑混杂变量?"等问题揭示论证缺陷。医疗决策辅助系统也应用此类技术,帮助患者质疑"类比论证"型健康建议的适用性。
数据集最近研究
最新研究方向
近年来,Critical Questions Generation Dataset(CQs-Gen)在自然语言处理领域引起了广泛关注,特别是在促进批判性思维和论证分析方面。该数据集的最新研究方向主要集中在如何利用大型语言模型(LLMs)自动生成能够揭示论证中潜在假设和结构性缺陷的关键问题。这一任务不仅对自动化推理系统具有重要意义,还能在教育、信息验证等领域发挥实际作用。当前的研究热点包括开发更高效的自动评估方法,以及探索如何通过生成关键问题来提升人类和机器的批判性思维能力。该数据集的推出填补了相关领域的数据空白,并为未来的研究提供了标准化评估基准,进一步推动了论证分析和批判性思维研究的发展。
相关研究论文
- 1Benchmarking Critical Questions Generation: A Challenging Reasoning Task for Large Language ModelsHiTZ Center - Ixa University of the Basque Country UPV/EHU · 2025年
以上内容由遇见数据集搜集并总结生成



