jonaspeschel/AVeriTeC-with-scraped-web-evidence
收藏Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/jonaspeschel/AVeriTeC-with-scraped-web-evidence
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: claim_id
dtype: int64
- name: claim
dtype: string
- name: required_reannotation
dtype: bool
- name: label
dtype: string
- name: justification
dtype: string
- name: claim_date
dtype: string
- name: speaker
dtype: string
- name: original_claim_url
dtype: string
- name: fact_checking_article
dtype: string
- name: reporting_source
dtype: string
- name: location_ISO_code
dtype: string
- name: claim_types
sequence: string
- name: cached_original_claim_url
dtype: string
- name: search_queries
sequence: string
- name: evidences_metadata
list:
- name: date
dtype: string
- name: search_string
dtype: string
- name: search_type
dtype: string
- name: title
dtype: string
- name: url
dtype: string
- name: evidences_content
sequence: string
splits:
- name: train
num_bytes: 6609529
num_examples: 234
download_size: 3766325
dataset_size: 6609529
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
task_categories:
- text-classification
- question-answering
language:
- en
tags:
- fact-checking
size_categories:
- n<1K
---
This dataset contains selected instances from the [AVeriTeC train split](https://huggingface.co/chenxwh/AVeriTeC) with custom retrieved web evidence.
The evidence was retrieved using the following steps:
1. **Search query generation:** Generate 3-5 search queries for web retrieval per claim by few-shot prompting [Ministral-14B model](https://huggingface.co/mistralai/Ministral-3-14B-Instruct-2512). They can be found in the dataset under `search_queries`.
2. **Web-based evidence retrieval:** Google search using the original claim and generated search queries via [SERP API](https://serper.dev/) with date constraints to avoid information published after the claim was made. Web content was scraped using `trafilatura` and `pdfplumber` packages for HTML and PDF files, respectively. We successfully scrape about 150 web pages per claim.
3. **Evidence ranking:** Rank the relevance of the evidence chunks with respect to the claim and search queries
1. **Chunking:** Split/Merge the scraped web contents' paragraphs into chunks of about 500 tokens, resulting in ~50,000 - 100,000 chunks per claim
2. **Dense-sparse hybrid retrieval:** For dense retrieval, compute cosine similarity between all search query and evidence chunk embeddings, then max-pool over the search queries. Embeddings generated using [this model](https://huggingface.co/mixedbread-ai/mxbai-embed-large-v1). For sparse retrieval, BM25 from `rank_bm25` is used, again max-pooling over search queries. Rankings from both methods are combined using Reciprocal Rank Fusion. The top-200 evidence chunks are retained for the following steps.
3. **De-duplication:** Remove duplicate or near-duplicate chunks by clustering based on the embeddings cosine similarities and retaining only the longest chunk per cluster.
4. **Generative re-ranking:** Re-rank the remaining chunks using a [generative re-ranking model](https://huggingface.co/mixedbread-ai/mxbai-rerank-large-v2) and retain the top-10 highest ranking chunks.
The dataset contains the textual content of the top-10 most relevant evidence chunks (`evidences_content`) and corresponding metadata (`evidences_metadata`), including the URL, title, and date of the web page from where the evidence chunk was scraped.
提供机构:
jonaspeschel
搜集汇总
数据集介绍

构建方式
在事实核查领域,数据集的构建需兼顾证据的全面性与可靠性。AVeriTeC-with-scraped-web-evidence数据集通过多阶段检索流程构建:首先基于少量提示生成搜索查询,随后利用网络爬虫工具采集相关网页内容,涵盖HTML与PDF格式。接着采用混合检索策略,结合稠密向量与稀疏检索方法对证据块进行排序,并通过去重与生成式重排序筛选出最具相关性的前十证据块,确保证据来源的时效性与多样性。
特点
该数据集在事实核查任务中展现出独特优势,其核心特征在于集成了结构化证据内容与丰富元数据。每条数据不仅包含原始声明及其标签,还提供了经过精细排序的网络证据文本块,并附带URL、标题及日期等元信息。证据覆盖范围广泛,每条声明约对应150个网页,经多轮筛选后保留最相关证据,有效支持对声明真实性的多角度验证。
使用方法
针对事实核查与问答任务,该数据集可直接应用于模型训练与评估。使用者可依据声明文本与附带的证据内容,构建分类或生成式验证流程;证据元数据便于追溯来源,增强结果的可解释性。数据集以标准格式存储,支持通过HuggingFace库加载,便于集成至现有自然语言处理框架中,推动自动化事实核查系统的开发。
背景与挑战
背景概述
在数字信息时代,虚假新闻与错误信息的泛滥已成为全球性挑战,催生了自动化事实核查技术的迫切需求。AVeriTeC-with-scraped-web-evidence数据集应运而生,由研究团队基于AVeriTeC训练集构建,专注于增强事实核查任务中证据检索的可靠性与覆盖面。该数据集通过整合大规模网络证据,旨在解决传统事实核查数据中证据来源有限、时效性不足的问题,为自然语言处理领域中的文本分类与问答系统提供了关键支持,推动了自动化事实核查模型向更精准、可解释的方向发展。
当前挑战
该数据集致力于应对自动化事实核查的核心挑战,即从海量网络信息中高效检索与主张相关的可靠证据,并准确评估其真实性。构建过程中面临多重困难:证据检索需平衡查询生成的多样性与准确性,避免引入事后发布的信息;网络内容爬取涉及处理异构格式(如HTML与PDF),并需克服网站访问限制与内容动态变化;证据去重与重排序要求处理数十万文本块,确保最终保留的证据既具代表性又无冗余,这些步骤对计算资源与算法鲁棒性提出了极高要求。
常用场景
经典使用场景
在事实核查领域,AVeriTeC-with-scraped-web-evidence数据集为自动化的声明验证提供了关键支持。该数据集通过整合声明、检索到的网络证据及其元数据,构建了一个结构化的评估框架。研究人员通常利用该数据集训练和测试模型,以评估模型在复杂、多源信息环境下的证据检索与推理能力,从而推动自动化事实核查技术的发展。
解决学术问题
该数据集有效解决了自动化事实核查中证据检索与整合的核心学术挑战。通过提供高质量的、经过严格筛选的网络证据,它帮助研究者克服了传统方法中证据来源单一、相关性不足的问题。其意义在于为多模态、多步骤的核查流程提供了基准,促进了检索增强生成、证据推理等前沿方向的研究,提升了模型在真实世界场景中的可信度与可解释性。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作。例如,基于其证据检索流程,研究者开发了更先进的混合检索与重排序模型,优化了证据的相关性与多样性。同时,该数据集也催生了针对长文本理解、多源证据融合的神经网络架构,推动了如检索增强的事实核查、可解释性人工智能等子领域的深入探索与创新。
以上内容由遇见数据集搜集并总结生成



