Japanese Dataset for Automated Fact-Checking: JAD-AFC

github2025-07-30 更新2025-08-06 收录

下载链接：

https://github.com/FujitsuResearch/japanese-dataset-for-automated-fact-checking

下载链接

链接失效反馈

官方服务：

资源简介：

JAD-AFC是一个设计用于评估自动事实检查技术的日语数据集，特别针对日语文本和多模态信息。该数据集基于日语事实检查文章收集的信息，包含文本、图片、视频等多模态信息，并提供了媒体信息的标签。数据集支持多种任务，如声明提取、证据收集和真实性判断等。

JAD-AFC is a Japanese dataset developed for evaluating automated fact-checking technologies, with a particular emphasis on Japanese-language text and multimodal information. This dataset is constructed using data collected from Japanese fact-checking articles, encompassing multimodal content such as text, images, and videos, and provides labels for media information. The dataset supports multiple downstream tasks, including claim extraction, evidence collection, and authenticity judgment.

创建时间：

2025-07-08

原始信息汇总

日本自动事实核查数据集：JAD-AFC

数据集概述

目的：用于评估日语自动事实核查技术
语言：日语
数据类型：文本、图像、视频等多模态信息
来源：基于日语事实核查文章收集的X（原Twitter）帖子URL

数据集内容

基本结构

格式：CSV
主要字段：
- 基本信息：项番、文章URL、文章公开日、文章评级、文章类别
- 验证对象信息：验证对象URL、声明、反向声明标签
- 真实性判定信息：依据URL、真实性标签、依据说明文
- 媒体信息：图片/视频数量、篡改标签、OOC标签

文章评级分类

正確、ほぼ正確、根拠不明、不正確、誤り

文章类别

災害、医療・健康、政治、国際

创建流程

事实核查文章选定
数据提取
媒体信息标签标注

主要特点

多模态支持：文本、图像、视频
任务支持：
- 声明提取
- 依据收集
- 真实性判定
- 媒体分析

统计信息

按年份分类的文章数量

年份	医疗·健康	国际	政治	灾害
2022	8	5	6	5
2023	28	32	16	10
2024	18	34	56	24
2025	14	34	23	9

媒体组合数量

年份	仅文本	仅图片	仅视频	图片+视频
2022	24	12	14	6
2023	70	100	48	0
2024	107	121	66	0
2025	78	71	42	0

使用注意事项

不包含实际SNS帖子内容
需要X API v2访问权限
仅限于研究用途

引用格式

bibtex @article{sasaki_jad-afc_2025, author = {佐々木, 佑樹 and 北島, 信哉}, title = {{マルチモーダル自動ファクトチェック手法のための日本語データセットJAD}-{AFCの提案}}, journal = {信学技報 SC2025-15}, volume = {125}, number = {139}, pages = {7--12}, issn = {2432-6380}, language = {ja}, year = {2025}, month = jul, url = {https://ken.ieice.org/ken/paper/20250731BclU/}, }

搜集汇总

数据集介绍

构建方式

JAD-AFC数据集通过系统化流程构建，聚焦于日语多模态信息的自动事实核查。研究团队从日本事实核查中心2022至2025年的公开文章中筛选国际、政治、医疗健康及灾害四大类内容，提取包含推文URL、证据链接和评级结果的核心元素。采用三重人工审核机制对媒体内容进行精细标注，包括图像篡改检测（Original/Manipulated）、语境一致性分析（OOC/NOOC）以及创新性设计的逆向主张生成，确保数据质量与任务多样性。

特点

该数据集突破单一文本模态限制，整合推文文本、图像（最多4张）及视频（1段）的多维度信息，每项媒体均附专业篡改与语境标签。特别设计的主张-逆向主张对（True/False/NEI三类标签）有效平衡了样本分布，覆盖事实核查全流程任务链：从主张提取、证据检索到真实性判定，为多模态虚假信息检测研究提供理想实验平台。其2022-2025年时间跨度的样本分布（758条数据）反映日本社会热点事件的动态演变。

使用方法

使用者需通过X API v2获取原始推文内容及媒体文件，配套脚本自动构建包含tweet元数据、图像和视频的本地存储结构。评估时可根据需求组合文本-图像对或文本-视频对作为输入特征，真值标签可直接用于监督学习。对于媒体篡改检测任务，Manipulated/OOC等细粒度标签支持多层次模型验证。研究引用需遵循指定文献格式，且需注意数据仅含URL引用而不包含可能下架的原始媒体内容。

背景与挑战

背景概述

JAD-AFC数据集由佐々木佑樹与北島信哉等学者于2025年构建，旨在推动日语多模态自动事实核查技术的研究。该数据集依托日本事实核查中心的公开报道，聚焦国际、政治、医疗健康及灾害四大领域，系统整合了社交媒体X（原Twitter）中的文本、图像及视频等多模态信息，并标注了媒体篡改与语境一致性等关键特征。作为首个针对日语复杂语言环境设计的事实核查基准，其创新性地引入逆向主张平衡机制，显著提升了模型在真实场景下的鲁棒性评估能力，为自然语言处理与多媒体取证领域的交叉研究提供了重要基础设施。

当前挑战

该数据集面临的领域性挑战主要体现在日语复杂语法结构与多模态信息融合的联合推理难题，尤其在处理同音异义词与省略句式时，传统文本分析方法易产生语义漂移。构建过程中的技术挑战包括：社交媒体内容的高动态性导致原始数据失效风险，需设计时效性验证机制；多模态标注需协调视觉篡改检测与语义一致性分析的双重标准；逆向主张生成需保持原主张的语义约束与逻辑反转的平衡，这对标注者的领域专业知识提出极高要求。此外，跨模态关联推理的评估框架尚未形成统一标准，制约了模型性能的横向比较。

常用场景

经典使用场景

在自然语言处理领域，JAD-AFC数据集为研究者提供了一个全面评估自动事实核查技术的平台。该数据集通过整合文本、图像和视频等多模态信息，特别适用于开发针对日语社交媒体内容的自动化事实核查系统。研究者可以利用该数据集训练和测试模型，以识别和验证社交媒体上的虚假信息，尤其在处理跨模态内容时展现出独特价值。

解决学术问题

JAD-AFC数据集有效解决了多语言环境下自动事实核查研究的资源匮乏问题。其精心标注的真伪标签和媒体篡改标识，为学术界提供了研究虚假信息传播机制的基础数据。通过该数据集，研究者能够深入探索多模态信息对事实核查准确性的影响，并开发出更鲁棒的跨模态事实核查算法，填补了日语环境下相关研究的空白。

衍生相关工作

围绕JAD-AFC数据集已产生多项重要研究成果，包括基于多模态融合的事实核查算法、跨语言虚假信息检测模型等。该数据集启发了对日语社交媒体特有传播模式的研究，并为开发面向东亚语言的自然语言处理技术提供了重要参考。部分研究团队已开始将该数据集的构建方法扩展到其他语言环境，推动了全球范围内自动事实核查技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集