five

normalcomputing/wikiqa-counterfactual|反事实推理数据集|自然语言处理数据集

收藏
hugging_face2024-06-05 更新2024-06-12 收录
反事实推理
自然语言处理
下载链接:
https://hf-mirror.com/datasets/normalcomputing/wikiqa-counterfactual
下载链接
链接失效反馈
资源简介:
Long-range Counterfactual Retrieval Benchmark是一个修改自wikiQA的数据集,包含维基百科文章及其对应的问题。数据集通过将原始答案替换为现实但错误的答案,来测试模型在预训练过程中对记忆事实的控制能力。例如,将歌曲These Boots Were Made For Walking的作者从Lee Hazlewood改为Terry Allen,然后要求模型识别作者名。数据集分为2k, 4k, 8k, 16k四个分割,包含split, question, prompt, document, context, original_eval, answer, n_replacements等列。
提供机构:
normalcomputing
原始信息汇总

数据集概述

名称: Long-range Counterfactual Retrieval Benchmark

开发机构: Normal Computing, Adapted from Abacus AI

许可证: Apache 2.0

数据集内容

  • 数据来源: 原始数据集由Abacus AI提供,基于WikiQA-Free_Form_QA数据集。
  • 数据构成: 包含Wikipedia文章(2-16千字)和相应的问题。
  • 数据修改: 将标记的答案替换为现实但错误的答案,以控制预训练期间记忆的事实。例如,将“Lee Hazlewood”替换为“Terry Allen”,并要求模型识别歌曲作者。

数据集结构

  • 分割: 2k, 4k, 8k, 16k
  • 列名:
    • split: 样本所属的分割
    • question: 查询问题
    • prompt: 提示信息
    • document: 原始Wikipedia文章
    • context: 编辑后的Wikipedia文章
    • original_eval: 编辑前的原始答案
    • answer: 编辑后的正确答案
    • n_replacements: 在context中将original_eval替换为answer的次数

数据集用途

用于评估模型在长范围反事实检索任务中的表现,通过提供编辑后的Wikipedia文章和问题,测试模型对预训练记忆事实的控制能力。

用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

中国30米分辨率土壤可蚀性因子数据集

该数据集为2018年中国30米分辨率土壤可蚀性因子(K)栅格数据,数据是利用中国1979-1994年的全国第二次土壤普查的成果数据进行计算;再利用径流小区观测数据修正计算结果;将修订结果利用反距离权重插值法插值生成栅格数据。特殊地类河湖库塘、冰川及永久积雪、裸岩土地类型K因子值强制赋值为0。如果用户采用的土地利用精度较高,建议重新对以下土地类型的K因子强制赋值为0:河湖库塘、冰川及永久积雪、裸岩。如果有K值为0,但不属于上述类型的,K因子可按如下原则:取邻近相同土地类型图斑的K值,或取与该图斑邻近且不等于0的所有图斑K值的平均值。

国家地球系统科学数据中心 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录