This-is-not-a-dataset

github2024-05-13 更新2024-05-31 收录

下载链接：

https://github.com/hitz-zentroa/This-is-not-a-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

我们介绍了一个大型半自动生成的数据集，包含约400,000个描述常识知识的句子，这些句子可以是真或假，其中约2/3的语料库中存在不同形式的否定，我们用它来评估大型语言模型。

We introduce a large-scale semi-automatically generated dataset comprising approximately 400,000 sentences that describe common sense knowledge. These sentences can be either true or false, with about two-thirds of the corpus containing various forms of negation. This dataset is utilized to evaluate large language models.

创建时间：

2023-10-18

原始信息汇总

数据集概述

数据集名称

"A Large Negation Benchmark to Challenge Large Language Models"

数据集描述

该数据集包含约400,000个描述常识知识的句子，这些句子可以为真或假，其中约2/3的句子中存在不同形式的否定。此数据集用于评估大型语言模型（LLMs）。

数据集内容

句子数量: 约400,000个
否定形式: 约2/3的句子中包含否定
用途: 用于评估大型语言模型

数据集获取

推荐方式: 使用🤗HuggingFace Hub下载
代码示例: python from datasets import load_dataset dataset = load_dataset("HiTZ/This-is-not-a-dataset")

数据集使用

训练与评估: 提供代码用于训练和评估任何LLM，以及用于重现论文结果的评分器。
评估脚本: 提供脚本评估LLM，支持零样本设置和少量样本设置。
训练脚本: 提供脚本用于训练LLM，支持多种配置和优化技术。

数据集评估工具

评分器: 用于评估模型预测的准确性，支持多种评估指标，包括整体准确性、否定分析和模式特定分析。

数据集引用

bibtex @inproceedings{garcia-ferrero-etal-2023-dataset, title = "This is not a Dataset: A Large Negation Benchmark to Challenge Large Language Models", author = "Garc{\i}a-Ferrero, Iker and Altuna, Bego{~n}a and Alvez, Javier and Gonzalez-Dios, Itziar and Rigau, German", editor = "Bouamor, Houda and Pino, Juan and Bali, Kalika", booktitle = "Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing", month = dec, year = "2023", address = "Singapore", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.emnlp-main.531", doi = "10.18653/v1/2023.emnlp-main.531", pages = "8596--8615", }

搜集汇总

数据集介绍

构建方式

该数据集通过半自动化的方式生成，包含约40万条描述性句子，涉及常识知识，这些句子可以是真或假，其中约三分之二的句子包含否定形式。数据集的构建旨在评估大型语言模型（LLMs）在处理否定句时的表现，涵盖了多种否定形式，以确保多样性和挑战性。

特点

该数据集的主要特点在于其大规模和多样性，涵盖了约40万条句子，其中大部分包含否定形式。此外，数据集提供了详细的标注信息，包括否定类型、语义类型和句法范围等，便于进行细粒度的分析和评估。数据集的设计旨在挑战现有的LLMs，测试其在处理复杂否定句时的能力。

使用方法

用户可以通过🤗HuggingFace Hub轻松下载该数据集，使用`datasets`库中的`load_dataset`函数即可加载。数据集提供了训练和评估LLMs的代码，用户可以根据需要调整配置文件，使用`accelerate`工具进行多GPU的训练和评估。此外，数据集还提供了评分脚本，用于评估自定义代码生成的结果，输出包括准确率、一致性分数等详细指标。

背景与挑战

背景概述

This-is-not-a-dataset 是由巴斯克语言技术中心（HiTZ）、NLP研究组（IXA）和逻辑与推理组（LoRea）联合开发的一个大规模否定基准数据集，旨在挑战大型语言模型（LLMs）在处理否定句方面的能力。该数据集于2023年发布，包含约40万条描述性句子，其中约三分之二的句子包含否定形式。这些句子涉及常识知识，可以为真或为假，主要用于评估LLMs在处理否定句时的表现。该数据集的发布对自然语言处理领域具有重要意义，尤其是在测试和提升LLMs在复杂语言现象中的表现方面。

当前挑战

This-is-not-a-dataset 的主要挑战在于其复杂性和多样性。首先，数据集中的否定句形式多样，包括词汇、句法和语义层面的否定，这要求模型具备高度的语言理解能力。其次，构建过程中需要确保句子的真实性和逻辑一致性，这对数据生成和验证提出了高要求。此外，评估LLMs在处理否定句时的性能也是一个挑战，尤其是在零样本和少样本学习场景下，模型的泛化能力面临严峻考验。最后，如何在资源有限的条件下高效训练和评估模型，也是该数据集面临的一个重要挑战。

常用场景

经典使用场景

该数据集的经典使用场景主要集中在对大型语言模型（LLMs）的否定能力进行评估。通过提供约40万条包含否定形式的描述性句子，数据集旨在测试LLMs在处理否定句时的表现。研究者可以利用该数据集对不同LLMs进行零样本或少量样本的评估，以检验模型在处理否定句时的准确性和鲁棒性。

解决学术问题

该数据集解决了在自然语言处理领域中，大型语言模型在处理否定句时表现不佳的学术问题。通过提供大规模的否定句数据，研究者能够更全面地评估和改进LLMs的否定处理能力，从而推动模型在理解复杂语言结构方面的进步。这一研究不仅有助于提升模型的语言理解能力，还为未来的语言模型设计提供了重要的参考依据。

衍生相关工作

基于该数据集，研究者们已经开展了一系列相关工作，包括对不同LLMs在否定句处理上的性能比较、否定句生成算法的改进以及否定句在多语言环境下的表现研究。这些工作不仅丰富了否定句处理的理论基础，还为实际应用中的语言模型优化提供了宝贵的实践经验。未来，随着更多研究的开展，该数据集有望成为评估和改进语言模型性能的标准工具之一。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集