ClaimBuster
收藏arXiv2020-04-30 更新2024-06-21 收录
下载链接:
http://doi.org/10.5281/zenodo.3609356
下载链接
链接失效反馈官方服务:
资源简介:
ClaimBuster数据集是由德克萨斯大学阿灵顿分校计算机科学与工程系的研究人员创建,包含从1960年至2016年美国大选总统辩论中提取的23,533条陈述,由人工编码员标注。该数据集旨在支持构建计算方法,从数字或传统媒体的众多来源中识别值得事实检查的声明。数据集内容丰富,覆盖了多年的政治辩论,每条陈述被分类为非事实陈述、不重要的事实陈述或值得检查的事实陈述。创建过程中,数据集经过多阶段的人工标注,确保了数据的质量。该数据集主要应用于自动化事实检查领域,帮助解决信息过载和资源有限的问题,提高事实检查的效率和准确性。
The ClaimBuster dataset was developed by researchers from the Department of Computer Science and Engineering, University of Texas at Arlington. It contains 23,533 statements extracted from U.S. presidential election debates held between 1960 and 2016, annotated by human coders. This dataset is designed to support the development of computational methods for identifying claims worthy of fact-checking across a wide range of digital and traditional media sources. Featuring rich content spanning decades of political debates, each statement in the dataset is categorized into three types: non-factual statements, trivial factual statements, and factually check-worthy statements. During its creation, the dataset underwent multi-stage manual annotation to ensure data quality. This dataset is primarily utilized in the field of automated fact-checking, helping to address the issues of information overload and limited resources, and improving the efficiency and accuracy of fact-checking work.
提供机构:
德克萨斯大学阿灵顿分校计算机科学与工程系
创建时间:
2020-04-30
搜集汇总
数据集介绍

构建方式
在自动化事实核查研究领域,构建高质量标注数据集是开发高效检测模型的基础。ClaimBuster数据集的构建过程体现了严谨的学术规范,其核心素材来源于1960年至2016年间所有美国总统大选辩论的转录文本,共计33场辩论。研究团队通过解析规则与人工标注相结合的方式,识别出每位发言者对应的句子,并筛选出由总统候选人陈述的语句作为候选集。随后,团队移除了长度不足五个单词的短句,最终获得23,533条待标注句子。标注工作通过专门开发的在线平台进行,历时26个月,招募了101名经过严格培训的高质量标注者,包括学生、教授与新闻工作者。标注过程中,每名参与者需对随机呈现的句子进行分类,判断其属于非事实性陈述、不重要事实性陈述或值得核查的事实性陈述三类之一。为确保标注一致性,平台引入了由专家预先标注的筛选句子机制,并设计了基于标注质量的奖励体系,有效提升了数据的可靠性与标注效率。
特点
ClaimBuster数据集在事实核查研究领域展现出多方面的独特价值。该数据集覆盖了长达半个多世纪的政治辩论内容,时间跨度广泛,能够捕捉不同历史时期语言表达与议题特征的演变,为模型训练提供了丰富的时序多样性。数据集中每条语句均附有详细的元数据,包括发言者身份、所属政党、语句长度、情感分数及原始文本位置等信息,这些结构化特征为多维度分析提供了便利。值得注意的是,数据标注采用了多人协作与专家验证相结合的模式,通过设置停止条件确保多数标注者达成共识后才确定最终标签,显著降低了个人偏见对数据质量的影响。此外,数据集中三类标签的分布呈现自然的不均衡状态,其中非事实性陈述占比最高,反映了真实场景中语言使用的复杂性,为模型处理类别不平衡问题提供了现实样本。
使用方法
ClaimBuster数据集为自然语言处理与计算新闻学领域的研究提供了重要的实验基础。在具体应用中,研究者可将该数据集划分为训练集、验证集与测试集,用于开发和评估自动检测模型的性能。数据集支持两种主要的任务范式:一是事实性陈述检测,即将不重要事实性陈述与值得核查的事实性陈述合并为事实性类别,与非事实性陈述构成二分类问题;二是值得核查性评估,直接利用三类标签训练多分类模型,并为每条语句预测属于值得核查类别的概率分数。在技术实现上,研究者可基于传统机器学习方法如支持向量机或逻辑回归,结合语句长度、情感特征等手工特征进行建模;亦可采用深度学习架构如Transformer网络,通过端到端学习捕捉语句的深层语义信息。此外,数据集中提供的发言者政党信息使得研究者能够探索政治立场对陈述类型分布的影响,为跨领域社会计算研究提供数据支撑。
背景与挑战
背景概述
在信息时代,虚假信息的泛滥已成为全球性挑战,对公共话语和社会信任构成严重威胁。为应对这一挑战,自动事实核查技术应运而生,其核心在于从海量信息中精准识别值得核查的陈述。在此背景下,ClaimBuster数据集由德克萨斯大学阿灵顿分校、马里兰大学等机构的研究团队于2020年创建,旨在为自动核查技术提供高质量的标注数据。该数据集提取自1960年至2016年间所有美国总统大选辩论的23,533条语句,并由101名标注者历时26个月完成人工标注,将语句划分为非事实性陈述、不重要事实性陈述和值得核查的事实性陈述三类。作为首个端到端自动事实核查系统ClaimBuster的基础,该数据集不仅推动了核查价值性检测模型的发展,还为政治传播、自然语言处理等领域的研究提供了关键资源,促进了自动化事实核查工具的标准化与优化。
当前挑战
ClaimBuster数据集致力于解决自动事实核查中核查价值性评估的核心挑战,即如何从复杂多变的自然语言中区分出具有公共意义且需优先核查的陈述。这一任务面临语义模糊性、语境依赖性强以及主观判断差异等难题,要求模型能精准捕捉事实性内容与社会关注度的微妙平衡。在数据集构建过程中,研究团队遭遇了多重挑战:首先,标注过程需克服标注者主观偏差,通过多阶段训练、专家监督和质控机制(如筛选句与权重惩罚)来提升标注一致性,但部分语句仍因语义复杂性导致标注分歧;其次,数据覆盖时间长(跨越56年),语言风格与政治议题的演变增加了标注难度与泛化需求;此外,激励设计与参与者管理也需精细平衡,以确保高质量标注的可持续性。这些挑战凸显了在动态信息环境中构建可靠标注数据的复杂性与必要性。
常用场景
经典使用场景
在自动化事实核查领域,ClaimBuster数据集作为基准资源,其经典使用场景聚焦于训练和评估检测可核查声明的机器学习模型。该数据集通过标注美国历届总统辩论中的陈述,为研究者提供了区分非事实性陈述、不重要事实性陈述与可核查事实性陈述的标准化语料。模型可依据这些标注学习识别文本中蕴含的潜在事实主张,从而在信息过载的媒体环境中高效筛选出值得深入验证的候选声明。
实际应用
在实际应用中,ClaimBuster数据集已被整合到多个事实核查平台与新闻编辑室的工作流程中。例如,基于该数据集训练的模型能够实时分析政治辩论、新闻报道或社交媒体内容,自动标记出需要优先核查的声明,辅助记者和事实核查员提升工作效率。此外,该技术也被用于监测公共话语中的事实性主张,增强公众对信息的批判性认知,对抗错误信息的传播。
衍生相关工作
围绕ClaimBuster数据集,学术界衍生了一系列经典研究工作。早期研究如ClaimBuster系统本身,利用该数据集构建了首个端到端自动化事实核查原型。后续工作则探索了基于支持向量机、逻辑回归等传统分类器,以及循环神经网络、Transformer等深度学习模型的检查价值检测方法。这些研究不仅优化了检测性能,还促进了跨语言、跨领域的可核查声明识别任务的发展。
以上内容由遇见数据集搜集并总结生成



