five

CRED-1

收藏
github2026-03-21 更新2026-03-12 收录
下载链接:
https://github.com/aloth/cred-1
下载链接
链接失效反馈
官方服务:
资源简介:
CRED-1是一个开放的、可重现的领域级可信度数据集,结合了多个开放许可的源列表和计算出的丰富信号。它为2672个已知发布虚假/错误信息、阴谋论或其他不可靠内容的领域提供了可信度评分。

CRED-1 is an open, reproducible domain-level credibility dataset that combines multiple open-licensed source lists and a rich set of computationally derived signals. It provides credibility scores for 2,672 domains known to publish false/misinformation, conspiracy theories, or other unreliable content.
创建时间:
2026-02-25
原始信息汇总

CRED-1: 开放领域可信度数据集概述

数据集简介

CRED-1 是一个开放的、可复现的领域级可信度数据集,它结合了多个开放许可的源列表与计算出的增强信号。该数据集为 2,672 个 已知发布虚假/错误信息、阴谋论或其他不可靠内容的域名提供了可信度评分。

核心特性

  • 域名数量:包含 2,672 个带有可信度评分(0.0–1.0)的域名。
  • 可复现性:完全可复现,Python 流水线可从零开始重建数据集。
  • 多信号评分:结合了源标签、域名年龄、网络流行度、事实核查频率和威胁情报。
  • 隐私保护:专为设备端客户端部署设计(无需服务器调用)。
  • 开放许可:依赖两个开放许可的源,无专有数据依赖。

数据模式与格式

数据集提供三种格式:

  1. JSON 格式 (cred1_current.json):包含所有字段的完整数据。
  2. CSV 格式 (cred1_current.csv):包含 18 列的表格格式,按 credibility_score 升序排列。
  3. 紧凑格式 (cred1_compact.json):用于设备端嵌入的最小化格式,约 168KB。

主要字段说明

字段 描述
category 完整类别名称:fake(虚假)、unreliable(不可靠)、mixed(混合)、conspiracy(阴谋论)、satire(讽刺)、reliable(可靠)
credibility_score 可信度评分(0.0-1.0,越低越不可信)
sources 标记此域名的独立源列表数量
tranco_rank Tranco 排名(可选,未排名则无)
domain_registered 来自 RDAP 的域名注册日期,ISO 8601 格式(可选)
domain_age_years 域名年龄(年),根据 domain_registered 计算(可选)
iffy_factual MBFC 事实报道评级(可选)
iffy_bias MBFC 政治偏见评级(可选)
iffy_score Iffy.news 可信度评分,0.0-1.0(可选)
factcheck_claims 来自 Google Fact Check Tools API 的事实核查声明数量(可选)
safe_browsing_flagged Google Safe Browsing 威胁标记(可选)
score_cat 类别评分分量
score_iffy Iffy.news 评分分量
score_tranco Tranco 排名评分分量
score_age 域名年龄评分分量
score_factcheck 事实核查频率评分分量
score_safebrowsing Safe Browsing 评分分量

评分模型

可信度评分是五个独立信号的加权混合:

信号 权重 来源
源类别 50% OpenSources.co 与 Iffy.news 共识标签
Iffy.news 评分 15% Iffy.news 可信度评级(如可用)
事实核查频率 15% Google Fact Check Tools API — 声明数量
网络流行度 5% Tranco Top-1M 排名(对数归一化)
域名年龄 5% WHOIS/RDAP 注册日期
Google Safe Browsing 覆盖 若被标记为恶意软件/社会工程,则硬上限为 0.05

信号不可用时,剩余权重默认为源类别评分。

数据来源

来源 域名数量 许可 类型
OpenSources.co (https://github.com/BigMcLargeHuge/opensources) 825 CC BY 4.0 精选的虚假/错误信息域名列表
Iffy.news Index (https://iffy.news/index/) 2,040 MIT 基于 MBFC 的不可靠源索引
Tranco Top-1M (https://tranco-list.eu/) 1,000,000 免费使用 聚合的网络流行度排名
RDAP (https://rdap.org/) 公共协议 N/A 域名注册数据
Google Fact Check Tools API (https://developers.google.com/fact-check/tools/api) N/A 免费(需署名) 事实核查声明数据库
Google Safe Browsing API (https://developers.google.com/safe-browsing) N/A 免费(需署名) 威胁情报

类别分布

类别 数量 百分比
混合 (Mixed) 1,335 50.0%
不可靠 (Unreliable) 589 22.0%
虚假 (Fake) 493 18.4%
阴谋论 (Conspiracy) 153 5.7%
讽刺 (Satire) 94 3.5%
可靠 (Reliable) 8 0.3%

应用场景

  • 浏览器扩展:在内容分发阶段进行设备端预先辟谣。
  • 错误信息研究:作为领域级可信度研究的基础事实。
  • 内容审核:自动标记低可信度来源。
  • 教育:媒体素养工具和课程。

引用

如需在研究中使用 CRED-1,请引用: bibtex @article{loth2026cred1, title = {{CRED-1}: An Open Multi-Signal Domain Credibility Dataset for Automated Pre-Bunking of Online Misinformation}, author = {Loth, Alexander}, journal = {Data in Brief}, year = {2026}, doi = {10.5281/zenodo.18769460} }

许可

此仓库(代码和数据)采用 CC BY 4.0 许可。

致谢

本数据集基于以下工作构建:

  • Melissa Zimdars 和 OpenSources.co 项目。
  • 雷诺兹新闻研究所的 Iffy.news 团队。
  • Google Fact Check Tools 和 Safe Browsing API。
搜集汇总
数据集介绍
构建方式
在数字信息生态系统中,准确评估网络域名的可信度对于遏制虚假信息的传播至关重要。CRED-1数据集通过一个完全可复现的Python管道构建而成,该管道整合了多个开放许可的源列表,包括OpenSources.co和Iffy.news索引,这些源列表提供了关于发布虚假、不可靠或阴谋论内容的域名的标注。构建过程首先获取并合并这些源数据,随后通过一系列信号增强步骤,如利用Tranco排名评估网络流行度、通过RDAP协议获取域名注册信息、调用Google事实核查工具API统计事实核查声明数量,并参考Google安全浏览API的威胁情报。最终,通过加权模型融合这些信号,生成每个域名的综合可信度评分,确保数据集的透明性和可重复性。
特点
该数据集的核心特征在于其多信号融合的评分机制,涵盖了2672个域名的可信度评估,评分范围从0.0到1.0,数值越低表示可信度越差。数据集不仅提供了基于源类别的共识标签,还纳入了域名年龄、网络流行度、事实核查频率及安全威胁情报等多元信号,从而实现了对域名可信度的多维刻画。此外,数据集设计注重隐私保护,支持在设备端本地部署,无需服务器调用,同时提供JSON、CSV和紧凑格式等多种数据表示,以适应不同应用场景的需求,如浏览器扩展或学术研究。
使用方法
在应用层面,CRED-1数据集的使用方法简洁而灵活。用户可以通过加载JSON或CSV格式的数据文件,直接查询特定域名的可信度评分及相关元数据,例如利用Python代码快速检索域名的评分和分类信息。数据集适用于浏览器扩展开发,实现基于本地数据的实时预警示功能;也可作为虚假信息研究中的基准数据,支持内容自动审核系统的构建。此外,其完全开源的特性允许研究人员通过提供的管道脚本重新生成或自定义数据集,进一步推动可信度评估模型的创新与验证。
背景与挑战
背景概述
在数字信息时代,网络虚假与误导性内容的泛滥对公共信息生态构成了严峻挑战,亟需自动化工具进行有效识别与干预。CRED-1数据集由研究人员Alexander Loth于2026年提出,旨在构建一个开放、可复现的领域级可信度评估资源。该数据集整合了多个公开许可的源列表与计算增强信号,为2,672个已知发布虚假信息、阴谋论或其他不可靠内容的域名提供了精细的可信度评分。其核心研究问题聚焦于通过多信号融合方法,实现域名层面可信度的自动化、量化评估,从而为在线信息的“预防性辟谣”提供数据基础。这一工作对计算新闻学、信息可信度研究以及内容安全领域具有显著影响力,推动了开放数据在 misinformation 对抗中的应用。
当前挑战
在虚假信息检测领域,核心挑战在于如何跨开放域实现准确、动态且可解释的可信度评估。CRED-1数据集致力于解决域名级信息源可信度分类的难题,其构建过程面临多重挑战:一是数据源的异构性与许可兼容性,需协调不同开源列表的类别体系与更新频率;二是信号融合的算法设计,需合理加权类别标签、事实核查频率、域名年龄、网络流行度及安全威胁等多维特征,以生成稳健的复合评分;三是隐私与部署考量,要求数据集能在客户端本地运行,避免依赖实时服务器查询,这限制了数据规模与实时性;四是数据可复现性,确保从原始数据到最终评分的完整管道透明且可重复,以保障研究的科学严谨性。
常用场景
经典使用场景
在数字媒体与信息可信度研究领域,CRED-1数据集为自动化预揭穿在线虚假信息提供了关键支撑。其经典应用场景在于作为基准数据集,用于训练和评估机器学习模型,特别是自然语言处理与网络可信度分析模型。研究人员利用该数据集中的多信号评分机制,能够系统性地识别和分类发布误导性内容的域名,从而在信息传播的早期阶段实现精准干预。
衍生相关工作
围绕CRED-1数据集,已衍生出多项经典研究工作,包括基于其多信号结构的可信度预测模型优化、以及跨语言虚假信息检测框架的扩展。这些工作进一步深化了领域级可信度评分的理论构建,并推动了开源检测工具的开发。同时,该数据集为后续大规模虚假信息图谱研究提供了数据基础,促进了学术与工业界在信息完整性保护方面的协作创新。
数据集最近研究
最新研究方向
在数字信息生态系统中,虚假与误导性内容的泛滥已成为全球性挑战,CRED-1数据集以其开放、可复现的多信号评分机制,为自动化预揭穿在线虚假信息提供了关键数据基础。当前研究聚焦于利用该数据集开发轻量级浏览器扩展,实现客户端侧的实时可信度评估,无需依赖服务器调用,这既保护了用户隐私,也提升了响应效率。此外,结合领域年龄、网络流行度及事实核查频率等多维信号,研究者正探索更精细的模型权重优化,以增强对混合类别域名的判别能力。该数据集的应用正推动媒体素养工具与内容审核系统的前沿创新,为构建更健康的网络信息环境贡献实证支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作