five

dwadden/healthver_entailment

收藏
Hugging Face2023-10-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dwadden/healthver_entailment
下载链接
链接失效反馈
官方服务:
资源简介:
HealthVer是一个包含公共健康声明的数据集,这些声明与科学研究文章进行验证。数据集的预处理遵循MultiVerS建模论文的方法,验证声明时使用完整的文章摘要而非单个句子。数据集包含训练、验证和测试三个部分,分别包含5292、940和903个样本。数据字段包括声明ID、声明、摘要ID、标题、摘要、事实核查结论和证据。
提供机构:
dwadden
原始信息汇总

数据集概述

数据集摘要

HealthVer 是一个关于公共卫生声明的数据集,这些声明通过科学研究文章进行验证。在这个版本的数据集中,我们遵循 MultiVerS 建模论文的预处理方法,验证声明与全文摘要而不是单个句子。包含蕴含标签和理由。

数据集结构

数据字段

  • claim_id: 声明的标识符,类型为 int32
  • claim: 声明内容,类型为 string
  • abstract_id: 摘要的标识符,类型为 int32
  • title: 文章标题,类型为 string
  • abstract: 摘要中的句子列表,每个句子为一个 string
  • verdict: 事实核查的结论,类型为 string
  • evidence: 摘要中提供证据支持结论的句子列表,类型为 int32

数据集信息

  • 特征:

    • claim_id: 类型为 int32
    • claim: 类型为 string
    • abstract_id: 类型为 int32
    • title: 类型为 string
    • abstract: 类型为 string 的序列。
    • verdict: 类型为 string
    • evidence: 类型为 int32 的序列。
  • 分割:

    • train: 字节数为 9490482,样本数为 5292。
    • validation: 字节数为 1707997,样本数为 940。
    • test: 字节数为 1620257,样本数为 903。
  • 下载大小: 3610222 字节。

  • 数据集大小: 12818736 字节。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作