This-is-not-a-dataset
收藏数据集概述
数据集名称
"A Large Negation Benchmark to Challenge Large Language Models"
数据集描述
该数据集包含约400,000个描述常识知识的句子,这些句子可以为真或假,其中约2/3的句子中存在不同形式的否定。此数据集用于评估大型语言模型(LLMs)。
数据集内容
- 句子数量: 约400,000个
- 否定形式: 约2/3的句子中包含否定
- 用途: 用于评估大型语言模型
数据集获取
- 推荐方式: 使用🤗HuggingFace Hub下载
- 代码示例: python from datasets import load_dataset dataset = load_dataset("HiTZ/This-is-not-a-dataset")
数据集使用
- 训练与评估: 提供代码用于训练和评估任何LLM,以及用于重现论文结果的评分器。
- 评估脚本: 提供脚本评估LLM,支持零样本设置和少量样本设置。
- 训练脚本: 提供脚本用于训练LLM,支持多种配置和优化技术。
数据集评估工具
- 评分器: 用于评估模型预测的准确性,支持多种评估指标,包括整体准确性、否定分析和模式特定分析。
数据集引用
bibtex @inproceedings{garcia-ferrero-etal-2023-dataset, title = "This is not a Dataset: A Large Negation Benchmark to Challenge Large Language Models", author = "Garc{\i}a-Ferrero, Iker and Altuna, Bego{~n}a and Alvez, Javier and Gonzalez-Dios, Itziar and Rigau, German", editor = "Bouamor, Houda and Pino, Juan and Bali, Kalika", booktitle = "Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing", month = dec, year = "2023", address = "Singapore", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.emnlp-main.531", doi = "10.18653/v1/2023.emnlp-main.531", pages = "8596--8615", }




