five

jonaspeschel/AVeriTeC-with-scraped-web-evidence

收藏
Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/jonaspeschel/AVeriTeC-with-scraped-web-evidence
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: claim_id dtype: int64 - name: claim dtype: string - name: required_reannotation dtype: bool - name: label dtype: string - name: justification dtype: string - name: claim_date dtype: string - name: speaker dtype: string - name: original_claim_url dtype: string - name: fact_checking_article dtype: string - name: reporting_source dtype: string - name: location_ISO_code dtype: string - name: claim_types sequence: string - name: cached_original_claim_url dtype: string - name: search_queries sequence: string - name: evidences_metadata list: - name: date dtype: string - name: search_string dtype: string - name: search_type dtype: string - name: title dtype: string - name: url dtype: string - name: evidences_content sequence: string splits: - name: train num_bytes: 6609529 num_examples: 234 download_size: 3766325 dataset_size: 6609529 configs: - config_name: default data_files: - split: train path: data/train-* task_categories: - text-classification - question-answering language: - en tags: - fact-checking size_categories: - n<1K --- This dataset contains selected instances from the [AVeriTeC train split](https://huggingface.co/chenxwh/AVeriTeC) with custom retrieved web evidence. The evidence was retrieved using the following steps: 1. **Search query generation:** Generate 3-5 search queries for web retrieval per claim by few-shot prompting [Ministral-14B model](https://huggingface.co/mistralai/Ministral-3-14B-Instruct-2512). They can be found in the dataset under `search_queries`. 2. **Web-based evidence retrieval:** Google search using the original claim and generated search queries via [SERP API](https://serper.dev/) with date constraints to avoid information published after the claim was made. Web content was scraped using `trafilatura` and `pdfplumber` packages for HTML and PDF files, respectively. We successfully scrape about 150 web pages per claim. 3. **Evidence ranking:** Rank the relevance of the evidence chunks with respect to the claim and search queries 1. **Chunking:** Split/Merge the scraped web contents' paragraphs into chunks of about 500 tokens, resulting in ~50,000 - 100,000 chunks per claim 2. **Dense-sparse hybrid retrieval:** For dense retrieval, compute cosine similarity between all search query and evidence chunk embeddings, then max-pool over the search queries. Embeddings generated using [this model](https://huggingface.co/mixedbread-ai/mxbai-embed-large-v1). For sparse retrieval, BM25 from `rank_bm25` is used, again max-pooling over search queries. Rankings from both methods are combined using Reciprocal Rank Fusion. The top-200 evidence chunks are retained for the following steps. 3. **De-duplication:** Remove duplicate or near-duplicate chunks by clustering based on the embeddings cosine similarities and retaining only the longest chunk per cluster. 4. **Generative re-ranking:** Re-rank the remaining chunks using a [generative re-ranking model](https://huggingface.co/mixedbread-ai/mxbai-rerank-large-v2) and retain the top-10 highest ranking chunks. The dataset contains the textual content of the top-10 most relevant evidence chunks (`evidences_content`) and corresponding metadata (`evidences_metadata`), including the URL, title, and date of the web page from where the evidence chunk was scraped.
提供机构:
jonaspeschel
搜集汇总
数据集介绍
main_image_url
构建方式
在事实核查领域,数据集的构建需兼顾证据的全面性与可靠性。AVeriTeC-with-scraped-web-evidence数据集通过多阶段检索流程构建:首先基于少量提示生成搜索查询,随后利用网络爬虫工具采集相关网页内容,涵盖HTML与PDF格式。接着采用混合检索策略,结合稠密向量与稀疏检索方法对证据块进行排序,并通过去重与生成式重排序筛选出最具相关性的前十证据块,确保证据来源的时效性与多样性。
特点
该数据集在事实核查任务中展现出独特优势,其核心特征在于集成了结构化证据内容与丰富元数据。每条数据不仅包含原始声明及其标签,还提供了经过精细排序的网络证据文本块,并附带URL、标题及日期等元信息。证据覆盖范围广泛,每条声明约对应150个网页,经多轮筛选后保留最相关证据,有效支持对声明真实性的多角度验证。
使用方法
针对事实核查与问答任务,该数据集可直接应用于模型训练与评估。使用者可依据声明文本与附带的证据内容,构建分类或生成式验证流程;证据元数据便于追溯来源,增强结果的可解释性。数据集以标准格式存储,支持通过HuggingFace库加载,便于集成至现有自然语言处理框架中,推动自动化事实核查系统的开发。
背景与挑战
背景概述
在数字信息时代,虚假新闻与错误信息的泛滥已成为全球性挑战,催生了自动化事实核查技术的迫切需求。AVeriTeC-with-scraped-web-evidence数据集应运而生,由研究团队基于AVeriTeC训练集构建,专注于增强事实核查任务中证据检索的可靠性与覆盖面。该数据集通过整合大规模网络证据,旨在解决传统事实核查数据中证据来源有限、时效性不足的问题,为自然语言处理领域中的文本分类与问答系统提供了关键支持,推动了自动化事实核查模型向更精准、可解释的方向发展。
当前挑战
该数据集致力于应对自动化事实核查的核心挑战,即从海量网络信息中高效检索与主张相关的可靠证据,并准确评估其真实性。构建过程中面临多重困难:证据检索需平衡查询生成的多样性与准确性,避免引入事后发布的信息;网络内容爬取涉及处理异构格式(如HTML与PDF),并需克服网站访问限制与内容动态变化;证据去重与重排序要求处理数十万文本块,确保最终保留的证据既具代表性又无冗余,这些步骤对计算资源与算法鲁棒性提出了极高要求。
常用场景
经典使用场景
在事实核查领域,AVeriTeC-with-scraped-web-evidence数据集为自动化的声明验证提供了关键支持。该数据集通过整合声明、检索到的网络证据及其元数据,构建了一个结构化的评估框架。研究人员通常利用该数据集训练和测试模型,以评估模型在复杂、多源信息环境下的证据检索与推理能力,从而推动自动化事实核查技术的发展。
解决学术问题
该数据集有效解决了自动化事实核查中证据检索与整合的核心学术挑战。通过提供高质量的、经过严格筛选的网络证据,它帮助研究者克服了传统方法中证据来源单一、相关性不足的问题。其意义在于为多模态、多步骤的核查流程提供了基准,促进了检索增强生成、证据推理等前沿方向的研究,提升了模型在真实世界场景中的可信度与可解释性。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作。例如,基于其证据检索流程,研究者开发了更先进的混合检索与重排序模型,优化了证据的相关性与多样性。同时,该数据集也催生了针对长文本理解、多源证据融合的神经网络架构,推动了如检索增强的事实核查、可解释性人工智能等子领域的深入探索与创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作