claimify-dataset

Name: claimify-dataset
Creator: Microsoft
Published: 2025-08-14 08:59:03
License: 暂无描述

Hugging Face2025-08-14 更新2025-08-15 收录

下载链接：

https://huggingface.co/datasets/microsoft/claimify-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含6490个句子，每个句子都标注了是否包含可验证的事实性主张。这些句子是从BingCheck数据集中的396个答案中提取的，BingCheck数据集包含了商业搜索助手针对各种主题的问题的长篇回答。

提供机构：

Microsoft

创建时间：

2025-08-14

原始信息汇总

数据集概述

基本信息

许可证: CDLA Permissive 2.0
语言: 英语 (en)
任务类别: 文本分类 (text-classification)

数据集内容

数据量: 6,490 条句子
标注类型: 二元标签 (是否包含可验证的事实性声明)
数据来源: 来自 BingCheck 数据集的 396 个答案
标注比例: 59% 的句子被标注为包含可验证的事实性声明

数据结构

列名及类型:
- answer_id (string): BingCheck 答案的唯一 ID
- question (string): 原始 BingCheck 问题
- sentence_id (int): 答案中句子的索引
- sentence (string): 句子文本
- contains_factual_claim (bool): 如果句子包含可验证的事实性声明则为 True，否则为 False

示例数据

json { "answer_id": "c910f021-48e2-44e0-a3fa-3552eaacf5b2", "question": "What inspired the invention of the first artificial heart?", "sentence_id": 3, "sentence": "The first patient to receive the Jarvik-7 was Barney Clark, a dentist from Seattle, who survived for 112 days after the implantation[^2^].", "contains_factual_claim": True }

数据集创建

句子分割: 首先按换行符分割，然后使用 NLTK 的句子分词器
标注过程: 由微软研究院的三名员工执行，遵循论文附录 C 中的详细程序和指南

引用

bibtex @inproceedings{metropolitansky-larson-2025-towards, title = "Towards Effective Extraction and Evaluation of Factual Claims", author = "Metropolitansky, Dasha and Larson, Jonathan", editor = "Che, Wanxiang and Nabende, Joyce and Shutova, Ekaterina and Pilehvar, Mohammad Taher", booktitle = "Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", month = jul, year = "2025", address = "Vienna, Austria", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2025.acl-long.348/", doi = "10.18653/v1/2025.acl-long.348", pages = "6996--7045", ISBN = "979-8-89176-251-0", }

伦理声明

所有数据标注均在研究参与者知情同意的情况下进行
不包含任何个人身份信息

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，高质量数据集的构建对于事实性主张识别任务至关重要。claimify-dataset源自BingCheck数据集中的396个长格式回答，通过创新的双层分割策略进行处理：首先依据换行符进行初步切分，随后采用NLTK句子分词器进行精细划分。微软研究院的三位专业标注员严格遵循附录C中的标注准则，对6,490个句子进行二元标注，最终形成包含可验证事实主张的标注数据集，其中59%的句子被标记为包含事实性主张。

特点

该数据集在文本分类领域展现出独特的学术价值，其核心特征体现在多维度的结构化设计。每个样本包含答案ID、原始问题、句子序号、句子文本以及事实性主张标注五个关键字段，这种设计既保留了原始语境信息，又提供了细粒度的标注维度。特别值得注意的是，数据集通过布尔值标注实现了对句子层面事实性主张的精准识别，且样本覆盖广泛的领域主题，为模型训练提供了丰富的语义场景。数据分布方面，正负样本比例保持相对均衡，有助于避免分类模型出现偏差。

使用方法

作为事实性主张检测领域的基准数据集，claimify-dataset为研究者提供了标准化的评估平台。使用时应充分理解字段间的关联性：answer_id字段可用于追溯原始上下文，sentence_id则确保句子顺序的可复现性。典型的应用场景包括构建二元分类模型，以sentence作为输入特征，contains_factual_claim作为预测目标。鉴于数据源自真实搜索引擎回答，建议在使用前进行领域适应性分析，同时可结合论文附录F中的筛选标准对特定子集进行研究。为保障研究可复现性，建议严格遵循提供的引用格式进行学术引用。

背景与挑战

背景概述

claimify-dataset由微软研究院的Dasha Metropolitansky和Jonathan Larson于2025年构建，旨在解决自然语言处理领域中事实性声明提取与评估的核心问题。该数据集源自BingCheck数据集中的396条长文本回答，包含6,490个经过人工标注的句子，每个句子均标注是否包含可验证的事实性声明。作为ACL 2025会议的研究成果，该数据集为语言模型输出的事实性验证提供了重要基准，推动了可解释人工智能和自动事实核查技术的发展。

当前挑战

该数据集面临双重挑战：在领域问题层面，如何精准区分事实性声明与主观陈述仍存在语义模糊性，特别是面对复杂句式或隐含主张时；在构建过程中，句子分割的准确性受限于NLTK分词器的性能，且标注一致性需通过三名独立标注者的协作来保障。此外，原始数据中事实性声明的分布偏差（59% vs 论文报告的63%）也反映了数据清洗对统计显著性的潜在影响。

常用场景

经典使用场景

在自然语言处理领域，claimify-dataset为研究者提供了一个高质量的标注数据集，专门用于训练和评估模型在识别文本中可验证事实主张的能力。该数据集广泛应用于文本分类任务，尤其在事实核查和自动摘要生成等场景中表现出色。通过分析来自BingCheck数据集的6,490个句子，研究者能够深入探索语言模型输出中的事实性内容，从而提升模型的可信度和可靠性。

衍生相关工作

claimify-dataset的发布催生了一系列相关研究，特别是在事实提取和评估领域。许多后续工作基于该数据集开发了更先进的文本分类模型，进一步优化了事实主张的识别精度。例如，部分研究结合深度学习技术，提出了多任务学习框架，同时处理事实提取和可信度评估任务。这些衍生工作显著推动了自然语言处理领域在事实性内容分析方面的发展。

数据集最近研究