gagle

Hugging Face2025-02-24 更新2025-02-25 收录

下载链接：

https://huggingface.co/datasets/ibomohsin/gagle

下载链接

链接失效反馈

官方服务：

资源简介：

生成的和有根据的语言示例（GAGLE）数据集包含超过240,000篇由LLM生成的文章。这些文章根据生成它们的模型（Mistral-7B或Gemma-2B）、提供的上下文信息、解码温度和数据领域（例如科学、新闻等）有所不同。数据集的结构包括多个字段，如模型类型、提示类型、温度、前缀、LLM文本、原始文本等。

创建时间：

2025-02-17

搜集汇总

数据集介绍

构建方式

GAGLE数据集的构建，依托于大规模语言模型生成的文章，种子数据来源于五个学术数据集，涵盖百科全书、新闻、法律、科学和专利等多个领域。通过不同的提示策略，如简单续写、关键词提示、摘要提示等，生成超过24万篇文章，这些文章在生成模型（Mistral-7B或Gemma-2B）、上下文信息、解码温度和数据领域上存在差异。

特点

该数据集的特点在于其多样性，不仅包含了不同模型生成的文本，还提供了丰富的上下文信息，以及多种提示策略生成的文本。此外，数据集遵循CC-by-4.0许可，确保了数据的开放性和可用性。GAGLE数据集为研究LLM生成的文本检测和分析提供了宝贵的资源。

使用方法

使用GAGLE数据集时，研究者可以依据数据集中的不同字段，如模型类型、提示策略、文本质量评分等，进行深入的分析和模型训练。数据集的结构化设计便于研究者根据具体需求进行数据筛选和预处理，为相关领域的研究提供了便捷的工具。

背景与挑战

背景概述

Generated And Grounded Language Examples（GAGLE）数据集，由Ibrahim Alabdulmohsin和Andreas Steiner于2025年创建，旨在为研究大型语言模型（LLM）生成文本的检测和分析提供支持。该数据集包含超过24万篇由LLM生成的文章，这些文章的生成涉及不同的模型（Mistral-7B和Gemma-2B）、上下文信息、解码温度以及数据领域（如科学、新闻等）。GAGLE的种子来源于五个学术数据集，包括Wikipedia、big_patent、newsroom、scientific_papers和billsum，涵盖了百科全书、新闻、法律、科学和专利等多个领域。该数据集对于理解LLM生成文本的特性、提升生成质量以及相关领域的应用研究具有重要的参考价值。

当前挑战

GAGLE数据集面临的挑战主要包括：1）如何准确识别和评估LLM生成文本的质量，这对于文本分类和生成任务至关重要；2）构建过程中，如何平衡不同模型、不同上下文信息、不同解码温度和不同数据领域之间的复杂交互。此外，数据集的多样性也为模型训练和评估带来了额外的挑战。

常用场景

经典使用场景

GAGLE数据集作为由LLM生成文章的集合，其经典使用场景在于为文本分类和文本生成任务提供丰富的数据资源。通过不同模型、提示策略和数据域生成的文章，研究人员可以评估和比较模型在遵循不同提示策略时的表现，以及它们生成文本的质量和多样性。

解决学术问题

该数据集解决了学术研究中关于LLM生成文本的可解释性、质量评估和生成策略有效性等问题。它使得研究者能够分析不同模型在处理不同类型和复杂度内容时的表现，进而为LLM的优化和应用提供实证基础。

衍生相关工作

基于GAGLE数据集，研究者已经开展了一系列相关工作，包括对LLM生成文本的评估指标研究、生成策略的比较分析，以及将LLM应用于特定领域如新闻、科学和专利文献的自动摘要生成等。这些工作进一步扩展了LLM的应用范围，并促进了相关技术的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集