ultra_short_form_generations_labeled

Hugging Face2025-04-30 更新2025-05-01 收录

下载链接：

https://huggingface.co/datasets/javifer/ultra_short_form_generations_labeled

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于问答（QA）任务的数据集，包含多个特征，如会话内容、角色、完成情况、标签等。数据集分为训练集、验证集和测试集三个部分，每个部分包含不同的示例数量和大小。

创建时间：

2025-04-29

原始信息汇总

数据集概述

基本信息

数据集名称: ultra_short_form_generations_labeled
来源: Hugging Face (https://huggingface.co/datasets/javifer/ultra_short_form_generations_labeled)
配置数量: 2
- pop_qa_Meta-Llama-3.1-8B-Instruct
- pop_qa_gemma-2-9B-IT

配置详情

配置1: pop_qa_Meta-Llama-3.1-8B-Instruct

特征:
- dataset: string
- subset: null
- orig_dataset_idx: int64
- orig_dataset_split: string
- query_id: string
- conversation: list (包含content和role字段)
- completions: sequence of string
- se_label: string
- semantic_clusters: sequence of int64
- refusal_labels: sequence of int64
- normalized_entropy: float64
- greedy_entailment_label: string
- greedy_squad_label: string
- gt_completion: string
- gt_answer: sequence of string
数据分割:
- validation: 1,000 个样本 (1,810,874 字节)
- test: 1,000 个样本 (1,802,017 字节)
- train: 9,795 个样本 (17,777,018 字节)
下载大小: 366,084,592 字节
数据集大小: 21,389,909 字节

配置2: pop_qa_gemma-2-9B-IT

特征: 同配置1
数据分割:
- train: 6,301 个样本 (6,893,559 字节)
下载大小: 2,345,767 字节
数据集大小: 6,893,559 字节

数据文件路径

pop_qa_Meta-Llama-3.1-8B-Instruct:
- validation: pop_qa_Meta-Llama-3.1-8B-Instruct/validation-*
- test: pop_qa_Meta-Llama-3.1-8B-Instruct/test-*
- train: pop_qa_Meta-Llama-3.1-8B-Instruct/train-*
pop_qa_gemma-2-9B-IT:
- train: pop_qa_gemma-2-9B-IT/train-*

搜集汇总

数据集介绍

构建方式

ultra_short_form_generations_labeled数据集通过两种先进的大语言模型（Meta-Llama-3.1-8B-Instruct和gemma-2-9B-IT）生成对话式问答数据，构建过程严格遵循结构化标注流程。原始数据经过多维度标注，包括语义标签、拒绝标签、语义聚类等，并采用标准化熵值量化回答的多样性。数据集划分为训练集、验证集和测试集，确保模型评估的全面性。

特点

该数据集以对话式问答为核心，涵盖丰富的语义标签和聚类信息，每个样本包含原始对话、生成回答及人工标注的真实答案。特征设计上融合了拒绝标签和标准化熵值，为研究大语言模型的生成质量和多样性提供量化依据。数据规模适中，训练集样本量达9795条，兼具深度和广度。

使用方法

研究人员可通过HuggingFace平台直接加载数据集，支持两种模型配置的独立调用。典型应用包括大语言模型生成质量评估、对话系统优化等场景。数据已预分割为训练/验证/测试集，用户可快速开展模型微调或zero-shot评估。对话记录与生成结果的并行结构便于进行端到端的对比分析。

背景与挑战

背景概述

ultra_short_form_generations_labeled数据集是近年来自然语言处理领域针对大语言模型生成内容评估的重要资源，由Meta等机构的研究团队构建。该数据集聚焦于短文本生成任务的质量控制与语义一致性分析，通过标注多维度标签（如语义等价性、拒绝行为识别等），为生成模型的可靠性评估提供了标准化基准。其创新性地引入语义聚类和熵值归一化等量化指标，显著推动了生成式AI在开放域问答场景中的可解释性研究。

当前挑战

该数据集面临的核心挑战体现在两个方面：在领域问题层面，短文本生成存在语义模糊性和上下文依赖性，现有标注体系难以全面捕捉生成结果的细微差异；在构建过程中，需平衡不同大语言模型（如Llama-3与Gemma）输出风格差异带来的标注一致性难题，且拒绝行为识别依赖人工制定的阈值规则可能引入主观偏差。多轮对话数据的语义聚类算法设计也面临计算复杂度与标注成本的双重约束。

常用场景

经典使用场景

在自然语言处理领域，ultra_short_form_generations_labeled数据集为研究超短文本生成任务提供了丰富的标注资源。该数据集通过包含多样化的对话内容和生成结果，成为评估语言模型在短文本生成任务中表现的重要基准。研究人员可利用其精细的语义标注和拒绝标签，深入分析模型在信息压缩和语义保持方面的能力。

衍生相关工作

基于该数据集，已衍生出多项关于短文本生成质量评估的重要研究。包括开发新型的语义一致性度量指标，以及构建针对超短文本的特定评估框架。这些工作显著推进了对话系统和自动摘要领域的发展，为后续研究提供了可比较的基准结果。

数据集最近研究