HiTZ/This-is-not-a-dataset

Name: HiTZ/This-is-not-a-dataset
Creator: HiTZ
Published: 2024-02-23 22:20:53
License: 暂无描述

Hugging Face2024-02-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/HiTZ/This-is-not-a-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

我们引入了一个大型的半自动生成数据集，包含约400,000个关于常识知识的描述性句子，这些句子可以是真或假，其中约2/3的语料库包含不同形式的否定，用于评估大型语言模型（LLMs）。数据集的特征包括pattern_id、pattern、test_id、negation_type、semantic_type、syntactic_scope、isDistractor、label和sentence。数据集分为训练集、验证集和测试集。

提供机构：

HiTZ

原始信息汇总

数据集概述

数据集信息

特征列表：
- pattern_id (int64): 模式ID，范围在[1,11]。
- pattern (string): 模式名称。
- test_id (int64): 每个模式使用一组模板来实例化三元组，示例按测试ID分组。
- negation_type (string): 否定类型，包括肯定、口头、非口头。
- semantic_type (string): 语义类型，包括无（肯定句）、分析性、合成性。
- syntactic_scope (string): 句法范围，包括无（肯定句）、从句、子从句。
- isDistractor (bool): 是否为干扰项，用于生成错误知识。
- label (bool): 示例的标签，如果陈述为真则为True，否则为False。
- sentence (string): 句子，模型的输入。
数据分割：
- train：包含41,264,658字节，268,505个示例。
- validation：包含3,056,321字节，22,514个示例。
- test：包含12,684,749字节，90,281个示例。
数据集大小：
- 下载大小：6,311,034字节。
- 数据集总大小：57,005,728字节。

任务类别

文本分类

语言

英语

数据集名称

This is NOT a Dataset

数据集规模

100K<n<1M

多语言性

单语种

数据源

原始数据

论文ID

this-is-not-a-dataset

5,000+

优质数据集

54 个

任务类型

进入经典数据集