claims topic dataset

github2020-10-21 更新2024-05-31 收录

下载链接：

https://github.com/claimskg/claim_topics_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从ClaimsKG中提取的claims主题数据集，包含了从事实核查网站提取的声明、标题、评论等，并通过DBPedia实体进行实体链接和关键词规范化处理。数据集提供了原始注释和经过协调的金标准数据集。

This dataset is a claims topic dataset extracted from ClaimsKG, encompassing declarations, titles, comments, and more sourced from fact-checking websites. It has undergone entity linking and keyword normalization processing through DBPedia entities. The dataset provides original annotations and a harmonized gold standard dataset.

创建时间：

2020-08-14

原始信息汇总

数据集概述

数据集名称

claim_topics_dataset

数据来源

数据集从ClaimsKG提取，包含了从事实核查网站提取的主题样本。

数据处理步骤

关键词规范化：使用TheSoz和UNESCO thesaurus进行关键词的规范化，通过字典匹配方法，忽略表面形态变化和复合词的词序。
目标概念选择：基于topic_counts.html文件，选择Thesauri中最频繁的顶级概念，如Healthcare, Taxes, Education等。
数据提取：通过SPARQL查询，从规范化后的ClaimsKG中提取与目标概念相关的声明，生成TSV文件。

数据集内容

原始注释：每个注释者的原始注释文件位于individual_annotations目录。
黄金标准数据集：经过注释者间分歧协调后的最终数据集，位于gold_updated.csv。

注释协议

注释者使用本地电子表格程序对每个CSV文件进行注释，通过在相关概念列中放置任何符号来标记。
注释指南包括每个概念的正负示例，以指导注释者如何正确标记。

数据集可用性

数据集可通过Virtuoso SPARQL接口访问，使用提供的Turtle版本的ClaimsKG进行数据加载和查询。

注释一致性

Krippendorff’s α：整体注释者一致性为0.75。
成对一致性：不同注释者对之间的一致性在0.65至0.85之间。

数据集目录

extracted_claims：包含通过SPARQL查询生成的所有七个TSV文件。
individual_annotations：包含每个注释者的CSV注释文件。

搜集汇总

数据集介绍

构建方式

该数据集从ClaimsKG中提取了与特定主题相关的声明数据，并通过社会科学的叙词表（TheSoz和UNESCO叙词表）对关键词进行标准化处理。这一过程包括使用字典匹配方法对关键词进行注释，确保不同形态和词序的相似关键词能够归一化为单一实体。随后，通过SPARQL查询从ClaimsKG中提取与选定主题相关的声明，并生成TSV文件作为后续注释的基础。注释过程中，每位注释者独立对声明进行分类，最终通过一致性检验生成黄金标准数据集。

特点

该数据集涵盖了多个社会热点主题，如医疗保健、税收、教育、移民、选举、犯罪和环境等。每个主题的声明均经过详细的注释和一致性检验，确保了数据的高质量和可靠性。数据集不仅提供了原始注释文件，还包含了经过一致性检验的黄金标准数据集，便于研究者进行深入分析和模型训练。此外，数据集的构建过程中使用了叙词表进行关键词标准化，进一步提升了数据的规范性和可解释性。

使用方法

研究者可以通过加载提供的Turtle文件并使用Virtuoso Docker镜像进行查询和分析。数据集中的每个主题声明均以TSV文件形式提供，便于直接导入分析工具。注释文件和黄金标准数据集可用于训练和评估主题分类模型。此外，数据集还提供了详细的注释指南和示例，帮助研究者理解注释标准并复现实验。通过SPARQL查询，研究者可以进一步扩展数据集或提取特定主题的声明进行深入研究。

背景与挑战

背景概述

Claims Topic Dataset 是一个专注于事实核查领域的数据集，旨在通过从 ClaimsKG 中提取的声明数据，研究社会热点话题的分类与标注。该数据集由多个研究机构合作创建，主要依托于 ClaimsKG 知识图谱，结合了 DBPedia 实体链接和高级社会科学词表（如 TheSoz 和 UNESCO 词表）进行关键词的标准化处理。数据集的核心研究问题在于如何通过多标注者的协作，生成高质量的声明主题分类数据，以支持事实核查、新闻分析和社会科学研究。该数据集在信息检索、自然语言处理和社会科学领域具有广泛的应用潜力，尤其是在处理多源异构数据时展现了其独特的价值。

当前挑战

Claims Topic Dataset 在构建和应用过程中面临多重挑战。首先，声明数据的主题分类本身具有高度复杂性，尤其是在处理涉及多领域交叉的声明时，标注者需要具备广泛的知识背景和细致的判断能力。其次，数据集的构建过程中，关键词的标准化处理是一个关键难点。尽管使用了 DBPedia 实体链接和高级词表进行归一化，但由于实体覆盖率和粒度不一致，仍需依赖人工标注进行补充和修正。此外，多标注者之间的意见分歧也是一个显著挑战，尽管通过 Krippendorff’s α 等统计方法进行一致性评估，但如何在高分歧情况下生成可靠的黄金标准数据集仍需进一步优化。最后，数据集的规模和应用场景的扩展也面临挑战，如何在保证数据质量的同时扩大数据覆盖范围，是该领域未来研究的重要方向。

常用场景

经典使用场景

在社会科学和信息检索领域，claims topic dataset 被广泛用于主题分类和语义分析。该数据集通过从 ClaimsKG 中提取的声明数据，结合高层次的社会科学词库（如 TheSoz 和 UNESCO 词库），为研究人员提供了一个标准化的主题分类框架。通过 SPARQL 查询，研究者可以轻松提取与特定主题相关的声明，如医疗保健、税收、教育等，从而进行深入的主题分析和语义理解。

衍生相关工作

基于 claims topic dataset，许多经典研究工作得以展开。例如，研究者利用该数据集开发了自动化的主题分类模型，显著提高了主题分类的效率和准确性。此外，该数据集还被用于构建语义网络，帮助研究者理解不同主题之间的关联性。这些衍生工作不仅推动了社会科学领域的研究进展，还为信息检索和自然语言处理领域提供了新的研究方向。

数据集最近研究