five

HiTZ/This-is-not-a-dataset

收藏
Hugging Face2024-02-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/HiTZ/This-is-not-a-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
我们引入了一个大型的半自动生成数据集,包含约400,000个关于常识知识的描述性句子,这些句子可以是真或假,其中约2/3的语料库包含不同形式的否定,用于评估大型语言模型(LLMs)。数据集的特征包括pattern_id、pattern、test_id、negation_type、semantic_type、syntactic_scope、isDistractor、label和sentence。数据集分为训练集、验证集和测试集。
提供机构:
HiTZ
原始信息汇总

数据集概述

数据集信息

  • 特征列表

    • pattern_id (int64): 模式ID,范围在[1,11]。
    • pattern (string): 模式名称。
    • test_id (int64): 每个模式使用一组模板来实例化三元组,示例按测试ID分组。
    • negation_type (string): 否定类型,包括肯定、口头、非口头。
    • semantic_type (string): 语义类型,包括无(肯定句)、分析性、合成性。
    • syntactic_scope (string): 句法范围,包括无(肯定句)、从句、子从句。
    • isDistractor (bool): 是否为干扰项,用于生成错误知识。
    • label (bool): 示例的标签,如果陈述为真则为True,否则为False。
    • sentence (string): 句子,模型的输入。
  • 数据分割

    • train:包含41,264,658字节,268,505个示例。
    • validation:包含3,056,321字节,22,514个示例。
    • test:包含12,684,749字节,90,281个示例。
  • 数据集大小

    • 下载大小:6,311,034字节。
    • 数据集总大小:57,005,728字节。

任务类别

  • 文本分类

语言

  • 英语

标签

  • 常识
  • 否定
  • LLMs
  • LLM

数据集名称

  • This is NOT a Dataset

数据集规模

  • 100K<n<1M

多语言性

  • 单语种

数据源

  • 原始数据

论文ID

  • this-is-not-a-dataset
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作