claims topic dataset
收藏github2020-10-21 更新2024-05-31 收录
下载链接:
https://github.com/claimskg/claim_topics_dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从ClaimsKG中提取的claims主题数据集,包含了从事实核查网站提取的声明、标题、评论等,并通过DBPedia实体进行实体链接和关键词规范化处理。数据集提供了原始注释和经过协调的金标准数据集。
This dataset is a claims topic dataset extracted from ClaimsKG, encompassing declarations, titles, comments, and more sourced from fact-checking websites. It has undergone entity linking and keyword normalization processing through DBPedia entities. The dataset provides original annotations and a harmonized gold standard dataset.
创建时间:
2020-08-14
原始信息汇总
数据集概述
数据集名称
- claim_topics_dataset
数据来源
- 数据集从ClaimsKG提取,包含了从事实核查网站提取的主题样本。
数据处理步骤
- 关键词规范化:使用TheSoz和UNESCO thesaurus进行关键词的规范化,通过字典匹配方法,忽略表面形态变化和复合词的词序。
- 目标概念选择:基于topic_counts.html文件,选择Thesauri中最频繁的顶级概念,如Healthcare, Taxes, Education等。
- 数据提取:通过SPARQL查询,从规范化后的ClaimsKG中提取与目标概念相关的声明,生成TSV文件。
数据集内容
- 原始注释:每个注释者的原始注释文件位于individual_annotations目录。
- 黄金标准数据集:经过注释者间分歧协调后的最终数据集,位于gold_updated.csv。
注释协议
- 注释者使用本地电子表格程序对每个CSV文件进行注释,通过在相关概念列中放置任何符号来标记。
- 注释指南包括每个概念的正负示例,以指导注释者如何正确标记。
数据集可用性
- 数据集可通过Virtuoso SPARQL接口访问,使用提供的Turtle版本的ClaimsKG进行数据加载和查询。
注释一致性
- Krippendorff’s α:整体注释者一致性为0.75。
- 成对一致性:不同注释者对之间的一致性在0.65至0.85之间。
数据集目录
- extracted_claims:包含通过SPARQL查询生成的所有七个TSV文件。
- individual_annotations:包含每个注释者的CSV注释文件。
搜集汇总
数据集介绍

构建方式
该数据集从ClaimsKG中提取了与特定主题相关的声明数据,并通过社会科学的叙词表(TheSoz和UNESCO叙词表)对关键词进行标准化处理。这一过程包括使用字典匹配方法对关键词进行注释,确保不同形态和词序的相似关键词能够归一化为单一实体。随后,通过SPARQL查询从ClaimsKG中提取与选定主题相关的声明,并生成TSV文件作为后续注释的基础。注释过程中,每位注释者独立对声明进行分类,最终通过一致性检验生成黄金标准数据集。
特点
该数据集涵盖了多个社会热点主题,如医疗保健、税收、教育、移民、选举、犯罪和环境等。每个主题的声明均经过详细的注释和一致性检验,确保了数据的高质量和可靠性。数据集不仅提供了原始注释文件,还包含了经过一致性检验的黄金标准数据集,便于研究者进行深入分析和模型训练。此外,数据集的构建过程中使用了叙词表进行关键词标准化,进一步提升了数据的规范性和可解释性。
使用方法
研究者可以通过加载提供的Turtle文件并使用Virtuoso Docker镜像进行查询和分析。数据集中的每个主题声明均以TSV文件形式提供,便于直接导入分析工具。注释文件和黄金标准数据集可用于训练和评估主题分类模型。此外,数据集还提供了详细的注释指南和示例,帮助研究者理解注释标准并复现实验。通过SPARQL查询,研究者可以进一步扩展数据集或提取特定主题的声明进行深入研究。
背景与挑战
背景概述
Claims Topic Dataset 是一个专注于事实核查领域的数据集,旨在通过从 ClaimsKG 中提取的声明数据,研究社会热点话题的分类与标注。该数据集由多个研究机构合作创建,主要依托于 ClaimsKG 知识图谱,结合了 DBPedia 实体链接和高级社会科学词表(如 TheSoz 和 UNESCO 词表)进行关键词的标准化处理。数据集的核心研究问题在于如何通过多标注者的协作,生成高质量的声明主题分类数据,以支持事实核查、新闻分析和社会科学研究。该数据集在信息检索、自然语言处理和社会科学领域具有广泛的应用潜力,尤其是在处理多源异构数据时展现了其独特的价值。
当前挑战
Claims Topic Dataset 在构建和应用过程中面临多重挑战。首先,声明数据的主题分类本身具有高度复杂性,尤其是在处理涉及多领域交叉的声明时,标注者需要具备广泛的知识背景和细致的判断能力。其次,数据集的构建过程中,关键词的标准化处理是一个关键难点。尽管使用了 DBPedia 实体链接和高级词表进行归一化,但由于实体覆盖率和粒度不一致,仍需依赖人工标注进行补充和修正。此外,多标注者之间的意见分歧也是一个显著挑战,尽管通过 Krippendorff’s α 等统计方法进行一致性评估,但如何在高分歧情况下生成可靠的黄金标准数据集仍需进一步优化。最后,数据集的规模和应用场景的扩展也面临挑战,如何在保证数据质量的同时扩大数据覆盖范围,是该领域未来研究的重要方向。
常用场景
经典使用场景
在社会科学和信息检索领域,claims topic dataset 被广泛用于主题分类和语义分析。该数据集通过从 ClaimsKG 中提取的声明数据,结合高层次的社会科学词库(如 TheSoz 和 UNESCO 词库),为研究人员提供了一个标准化的主题分类框架。通过 SPARQL 查询,研究者可以轻松提取与特定主题相关的声明,如医疗保健、税收、教育等,从而进行深入的主题分析和语义理解。
衍生相关工作
基于 claims topic dataset,许多经典研究工作得以展开。例如,研究者利用该数据集开发了自动化的主题分类模型,显著提高了主题分类的效率和准确性。此外,该数据集还被用于构建语义网络,帮助研究者理解不同主题之间的关联性。这些衍生工作不仅推动了社会科学领域的研究进展,还为信息检索和自然语言处理领域提供了新的研究方向。
数据集最近研究
最新研究方向
在信息验证与知识图谱领域,claims topic dataset的最新研究方向聚焦于如何通过高级社会科学词表(如TheSoz和UNESCO词表)对关键词进行规范化处理,以提升实体链接的准确性和一致性。该数据集从ClaimsKG中提取了与健康、税收、教育、移民、选举、犯罪和环境等主题相关的声明,并通过SPARQL查询进行筛选和分类。当前研究热点包括如何利用这些规范化后的数据,结合自然语言处理技术,进一步优化事实核查系统的性能。此外,研究者们还在探索如何通过多标注者的协同工作,提升数据标注的准确性和一致性,从而为更广泛的社会科学研究和政策制定提供可靠的数据支持。
以上内容由遇见数据集搜集并总结生成



