five

This-is-not-a-dataset

收藏
github2024-05-13 更新2024-05-31 收录
下载链接:
https://github.com/hitz-zentroa/This-is-not-a-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
我们介绍了一个大型半自动生成的数据集,包含约400,000个描述常识知识的句子,这些句子可以是真或假,其中约2/3的语料库中存在不同形式的否定,我们用它来评估大型语言模型。

We introduce a large-scale semi-automatically generated dataset comprising approximately 400,000 sentences that describe common sense knowledge. These sentences can be either true or false, with about two-thirds of the corpus containing various forms of negation. This dataset is utilized to evaluate large language models.
创建时间:
2023-10-18
原始信息汇总

数据集概述

数据集名称

"A Large Negation Benchmark to Challenge Large Language Models"

数据集描述

该数据集包含约400,000个描述常识知识的句子,这些句子可以为真或假,其中约2/3的句子中存在不同形式的否定。此数据集用于评估大型语言模型(LLMs)。

数据集内容

  • 句子数量: 约400,000个
  • 否定形式: 约2/3的句子中包含否定
  • 用途: 用于评估大型语言模型

数据集获取

  • 推荐方式: 使用🤗HuggingFace Hub下载
  • 代码示例: python from datasets import load_dataset dataset = load_dataset("HiTZ/This-is-not-a-dataset")

数据集使用

  • 训练与评估: 提供代码用于训练和评估任何LLM,以及用于重现论文结果的评分器。
  • 评估脚本: 提供脚本评估LLM,支持零样本设置和少量样本设置。
  • 训练脚本: 提供脚本用于训练LLM,支持多种配置和优化技术。

数据集评估工具

  • 评分器: 用于评估模型预测的准确性,支持多种评估指标,包括整体准确性、否定分析和模式特定分析。

数据集引用

bibtex @inproceedings{garcia-ferrero-etal-2023-dataset, title = "This is not a Dataset: A Large Negation Benchmark to Challenge Large Language Models", author = "Garc{\i}a-Ferrero, Iker and Altuna, Bego{~n}a and Alvez, Javier and Gonzalez-Dios, Itziar and Rigau, German", editor = "Bouamor, Houda and Pino, Juan and Bali, Kalika", booktitle = "Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing", month = dec, year = "2023", address = "Singapore", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.emnlp-main.531", doi = "10.18653/v1/2023.emnlp-main.531", pages = "8596--8615", }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过半自动化的方式生成,包含约40万条描述性句子,涉及常识知识,这些句子可以是真或假,其中约三分之二的句子包含否定形式。数据集的构建旨在评估大型语言模型(LLMs)在处理否定句时的表现,涵盖了多种否定形式,以确保多样性和挑战性。
特点
该数据集的主要特点在于其大规模和多样性,涵盖了约40万条句子,其中大部分包含否定形式。此外,数据集提供了详细的标注信息,包括否定类型、语义类型和句法范围等,便于进行细粒度的分析和评估。数据集的设计旨在挑战现有的LLMs,测试其在处理复杂否定句时的能力。
使用方法
用户可以通过🤗HuggingFace Hub轻松下载该数据集,使用`datasets`库中的`load_dataset`函数即可加载。数据集提供了训练和评估LLMs的代码,用户可以根据需要调整配置文件,使用`accelerate`工具进行多GPU的训练和评估。此外,数据集还提供了评分脚本,用于评估自定义代码生成的结果,输出包括准确率、一致性分数等详细指标。
背景与挑战
背景概述
This-is-not-a-dataset 是由巴斯克语言技术中心(HiTZ)、NLP研究组(IXA)和逻辑与推理组(LoRea)联合开发的一个大规模否定基准数据集,旨在挑战大型语言模型(LLMs)在处理否定句方面的能力。该数据集于2023年发布,包含约40万条描述性句子,其中约三分之二的句子包含否定形式。这些句子涉及常识知识,可以为真或为假,主要用于评估LLMs在处理否定句时的表现。该数据集的发布对自然语言处理领域具有重要意义,尤其是在测试和提升LLMs在复杂语言现象中的表现方面。
当前挑战
This-is-not-a-dataset 的主要挑战在于其复杂性和多样性。首先,数据集中的否定句形式多样,包括词汇、句法和语义层面的否定,这要求模型具备高度的语言理解能力。其次,构建过程中需要确保句子的真实性和逻辑一致性,这对数据生成和验证提出了高要求。此外,评估LLMs在处理否定句时的性能也是一个挑战,尤其是在零样本和少样本学习场景下,模型的泛化能力面临严峻考验。最后,如何在资源有限的条件下高效训练和评估模型,也是该数据集面临的一个重要挑战。
常用场景
经典使用场景
该数据集的经典使用场景主要集中在对大型语言模型(LLMs)的否定能力进行评估。通过提供约40万条包含否定形式的描述性句子,数据集旨在测试LLMs在处理否定句时的表现。研究者可以利用该数据集对不同LLMs进行零样本或少量样本的评估,以检验模型在处理否定句时的准确性和鲁棒性。
解决学术问题
该数据集解决了在自然语言处理领域中,大型语言模型在处理否定句时表现不佳的学术问题。通过提供大规模的否定句数据,研究者能够更全面地评估和改进LLMs的否定处理能力,从而推动模型在理解复杂语言结构方面的进步。这一研究不仅有助于提升模型的语言理解能力,还为未来的语言模型设计提供了重要的参考依据。
衍生相关工作
基于该数据集,研究者们已经开展了一系列相关工作,包括对不同LLMs在否定句处理上的性能比较、否定句生成算法的改进以及否定句在多语言环境下的表现研究。这些工作不仅丰富了否定句处理的理论基础,还为实际应用中的语言模型优化提供了宝贵的实践经验。未来,随着更多研究的开展,该数据集有望成为评估和改进语言模型性能的标准工具之一。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作