HiTZ/This-is-not-a-dataset
收藏Hugging Face2024-02-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/HiTZ/This-is-not-a-dataset
下载链接
链接失效反馈官方服务:
资源简介:
我们引入了一个大型的半自动生成数据集,包含约400,000个关于常识知识的描述性句子,这些句子可以是真或假,其中约2/3的语料库包含不同形式的否定,用于评估大型语言模型(LLMs)。数据集的特征包括pattern_id、pattern、test_id、negation_type、semantic_type、syntactic_scope、isDistractor、label和sentence。数据集分为训练集、验证集和测试集。
提供机构:
HiTZ
原始信息汇总
数据集概述
数据集信息
-
特征列表:
pattern_id(int64): 模式ID,范围在[1,11]。pattern(string): 模式名称。test_id(int64): 每个模式使用一组模板来实例化三元组,示例按测试ID分组。negation_type(string): 否定类型,包括肯定、口头、非口头。semantic_type(string): 语义类型,包括无(肯定句)、分析性、合成性。syntactic_scope(string): 句法范围,包括无(肯定句)、从句、子从句。isDistractor(bool): 是否为干扰项,用于生成错误知识。label(bool): 示例的标签,如果陈述为真则为True,否则为False。sentence(string): 句子,模型的输入。
-
数据分割:
train:包含41,264,658字节,268,505个示例。validation:包含3,056,321字节,22,514个示例。test:包含12,684,749字节,90,281个示例。
-
数据集大小:
- 下载大小:6,311,034字节。
- 数据集总大小:57,005,728字节。
任务类别
- 文本分类
语言
- 英语
标签
- 常识
- 否定
- LLMs
- LLM
数据集名称
This is NOT a Dataset
数据集规模
- 100K<n<1M
多语言性
- 单语种
数据源
- 原始数据
论文ID
this-is-not-a-dataset



