azhx/counterfact-filtered-gptj6b
收藏Hugging Face2023-04-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/azhx/counterfact-filtered-gptj6b
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是azhx/counterfact-easy的一个子集,通过一个启发式方法过滤,以确定GPT-J-6B模型是否知道每一行中的知识。这个启发式方法涉及使用GPT-J-6B生成完成项,并根据完成项中是否包含数据集中指定的答案来判断模型是否知道该事实。数据集包含主题、命题、主题+谓语、答案、标签和案例ID等字段,并分为训练集和测试集。
该数据集是azhx/counterfact-easy的一个子集,通过一个启发式方法过滤,以确定GPT-J-6B模型是否知道每一行中的知识。这个启发式方法涉及使用GPT-J-6B生成完成项,并根据完成项中是否包含数据集中指定的答案来判断模型是否知道该事实。数据集包含主题、命题、主题+谓语、答案、标签和案例ID等字段,并分为训练集和测试集。
提供机构:
azhx
原始信息汇总
数据集概述
数据集名称
- 名称:counterfact-filtered-gptj6b
数据集特征
- subject:字符串类型
- proposition:字符串类型
- subject+predicate:字符串类型
- answer:字符串类型
- label:分类标签,包含False和True两个类别
- case_id:整数类型
数据集分割
- 训练集:包含6896个样本,总大小为915160.9417906551字节
- 测试集:包含766个样本,总大小为101655.05820934482字节
数据集大小
- 下载大小:421630字节
- 数据集总大小:1016816.0字节
数据集筛选标准
- 使用GPT-J-6B模型对原始数据集中的每个提示生成5个完成,每个完成的最大长度为30个令牌。
- 如果大多数完成(>=3)包含数据集中指定的答案,则认为模型确实知道该事实。
- 实际筛选后,案例ID数量从约21k减少到约3k。



