Fact-Checking Podcasts Dataset
收藏arXiv2025-02-03 更新2025-02-11 收录
下载链接:
https://github.com/factiverse/factcheck-podcasts
下载链接
链接失效反馈官方服务:
资源简介:
Fact-Checking Podcasts数据集是由斯塔万格大学的研究人员创建的,旨在为事实核查任务提供支持。该数据集包含了531个播客集的转录,涵盖英语、挪威语和德语三种语言。数据集通过众包方式进行了标注,标注内容包括声明检测、声明类型分类以及声明验证等信息。该数据集可用于微调多语言变换器模型,如XLM-RoBERTa,以用于声明检测和立场分类等任务。
The Fact-Checking Podcasts dataset was created by researchers from the University of Stavanger to support fact-checking tasks. It contains transcripts of 531 podcast episodes across three languages: English, Norwegian, and German. The dataset was annotated via crowdsourcing, with the annotation content including claim detection, claim type classification, claim verification and other related information. This dataset can be used to fine-tune multilingual transformer models such as XLM-RoBERTa for tasks like claim detection and stance classification.
提供机构:
斯塔万格大学
创建时间:
2025-02-03
搜集汇总
数据集介绍

构建方式
Fact-Checking Podcasts Dataset是一个针对播客内容进行事实核查的数据集。该数据集的构建采用了OpenAI的Whisper自动语音识别模型进行转录,并通过Pyannote进行说话人识别。在此基础上,通过众包的方式招募具有语言能力和教育背景的标注员,在专门设计的网页应用中,对转录的文本进行标注,包括标注值得核查的声明、声明范围和上下文错误等。这一过程整合了实时播放和注释功能,确保了标注的效率与准确性。
特点
该数据集的特点在于,它不仅包含了转录的播客文本,还提供了针对声明进行事实核查的精细标注。这些标注包括声明类型、进行事实核查的原因以及与声明无关的发言等。此外,数据集支持超过90种语言,并提供了灵活性,允许标注员在多语种播客上进行工作。该数据集的发布为多语言声明检测和立场分类的模型训练提供了宝贵的资源。
使用方法
使用该数据集时,研究者可以通过内置的播客浏览器界面选择并播放播客,同时进行实时的标注。数据集的注释存储在关系数据库中,便于进行灵活的查询,创建适用于各种自然语言处理应用的数据集。此外,该数据集的注释界面支持对声明的类型、事实核查的动机以及与声明相关的其他信息进行标注,为后续的证据检索和模型训练提供了丰富的信息。
背景与挑战
背景概述
Fact-Checking Podcasts Dataset是由Vinay Setty和Adam James Becker于2018年创建,旨在解决播客内容中的事实核查问题。该数据集由挪威斯塔万格大学的研究人员开发,通过集成实时音频播放和交互式注释,提供了一种高效的方式来纠正转录错误、识别值得核查的声明以及解决语境歧义。该工具利用了OpenAI的Whisper自动语音识别模型进行转录,并支持超过90种语言,为多语言播客提供了极大的灵活性。研究团队还发布了531个播客剧集的转录文本和专门针对端到端事实核查的注释数据集,对多语言声明检测和立场分类任务进行了微调。
当前挑战
在构建过程中,该数据集面临的主要挑战包括:1) 处理长篇音频内容的转录和注释,保证效率和准确性;2) 支持多语言环境下的播客内容,需要克服语言识别和理解的障碍;3) 缺乏专门针对播客的事实核查工具和数据集,导致相关研究和应用的发展受到限制;4) 在事实核查中,需要识别和标注不同类型的声明及其事实核查的动机,这对于模型训练和性能提升至关重要。
常用场景
经典使用场景
Fact-Checking Podcasts Dataset是一个专注于转录和标注播客内容的工具,其经典使用场景在于为播客中的言论进行实时的事实核查。通过集成的实时音频播放与交互式标注功能,研究者和标注者能够一边收听播客,一边对关键元素如值得核查的声明、声明跨度以及语境错误进行标注,从而确保 spoken content 的准确性和完整性。
解决学术问题
该数据集解决了学术界在处理长篇音频内容时遇到的挑战,如高效的转录、准确的语境理解以及多语言支持。通过提供细粒度的标注,如声明类型、核查原因以及与声明无关的发言,它为模型训练和事实核查任务提供了宝贵的资源,从而促进了自动化事实核查系统的发展。
衍生相关工作
基于该数据集,研究者们已经开展了一系列相关工作,包括细粒度的事实核查模型训练、跨语言的事实声明检测以及立场分类任务。这些衍生工作不仅拓宽了数据集的应用范围,也为自动化事实核查领域的发展提供了新的视角和方法。
以上内容由遇见数据集搜集并总结生成



