ultra_short_form_generations_labeled_2

Hugging Face2025-05-04 更新2025-05-05 收录

下载链接：

https://huggingface.co/datasets/javifer/ultra_short_form_generations_labeled_2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含四个配置，分别是nq_open_Meta-Llama-3.1-8B-Instruct、nq_open_gemma-2-9B-IT、pop_qa_Meta-Llama-3.1-8B-Instruct和pop_qa_gemma-2-9B-IT。每个配置都包含对话内容和相应的回答，以及其他用于自然语言处理任务的特征，如标签、语义簇、拒绝标签等。数据集分为测试集、验证集和训练集，适用于问答和对话系统等场景。

创建时间：

2025-05-03

原始信息汇总

数据集概述

数据集基本信息

数据集名称：ultra_short_form_generations_labeled_2
数据集地址：https://huggingface.co/datasets/javifer/ultra_short_form_generations_labeled_2

数据集配置

数据集包含以下4个配置：

1. nq_open_Meta-Llama-3.1-8B-Instruct

特征：
- dataset: string
- subset: null
- orig_dataset_idx: int64
- orig_dataset_split: string
- query_id: string
- conversation: list (包含content和role)
- completions: sequence of string
- se_label: string
- semantic_clusters: sequence of int64
- refusal_labels: sequence of int64
- normalized_entropy: float64
- greedy_entailment_label: string
- greedy_squad_label: string
- llm_judge_label: string
- gt_completion: string
- gt_answer: sequence of string
数据分割：
- test: 999个样本
- validation: 1000个样本
- train: 9401个样本
下载大小：480533962字节
数据集大小：29264031字节

2. nq_open_gemma-2-9B-IT

特征：同nq_open_Meta-Llama-3.1-8B-Instruct
数据分割：
- validation: 1000个样本
- test: 1000个样本
下载大小：2969042字节
数据集大小：2776115字节

3. pop_qa_Meta-Llama-3.1-8B-Instruct

特征：同nq_open_Meta-Llama-3.1-8B-Instruct
数据分割：
- test: 1000个样本
- train: 10000个样本
- validation: 1000个样本
下载大小：382865489字节
数据集大小：21905772字节

4. pop_qa_gemma-2-9B-IT

特征：同nq_open_Meta-Llama-3.1-8B-Instruct
数据分割：
- test: 1000个样本
下载大小：368173字节
数据集大小：1089555字节

数据文件路径

nq_open_Meta-Llama-3.1-8B-Instruct:
- test: nq_open_Meta-Llama-3.1-8B-Instruct/test-*
- validation: nq_open_Meta-Llama-3.1-8B-Instruct/validation-*
- train: nq_open_Meta-Llama-3.1-8B-Instruct/train-*
nq_open_gemma-2-9B-IT:
- validation: nq_open_gemma-2-9B-IT/validation-*
- test: nq_open_gemma-2-9B-IT/test-*
pop_qa_Meta-Llama-3.1-8B-Instruct:
- test: pop_qa_Meta-Llama-3.1-8B-Instruct/test-*
- train: pop_qa_Meta-Llama-3.1-8B-Instruct/train-*
- validation: pop_qa_Meta-Llama-3.1-8B-Instruct/validation-*
pop_qa_gemma-2-9B-IT:
- test: pop_qa_gemma-2-9B-IT/test-*

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，ultra_short_form_generations_labeled_2数据集的构建采用了多模型协同标注的策略。该数据集基于nq_open和pop_qa两个知识库，通过Meta-Llama-3.1-8B-Instruct和gemma-2-9B-IT两种大语言模型生成对话式响应。每个样本包含原始查询ID、多轮对话记录、模型生成的候选完成序列，并辅以语义熵、拒绝标签和人工标注的黄金答案等多维度标注。数据集按7:1:2的比例划分训练、验证和测试集，确保评估的可靠性。

特点

该数据集最显著的特征在于其精细的语义标注体系。每个生成响应都配备了语义等价标签、聚类标识和拒绝检测标签，为研究模型生成内容的语义一致性提供了丰富信号。独特的标准化熵值量化了生成多样性，而贪婪蕴含和SQuAD评估标签则为质量评估提供了多角度参考。数据集涵盖开放域问答和知识问答两种场景，模型生成的响应经过严格的多层次标注，为短文本生成研究建立了新的基准。

使用方法

研究者可通过HuggingFace平台直接加载特定配置的数据子集，如nq_open_Meta-Llama-3.1-8B-Instruct或pop_qa_gemma-2-9B-IT。数据以标准对话格式组织，包含用户查询、AI响应和标注信息，支持端到端的生成质量评估实验。建议先利用训练集微调模型，再通过验证集的语义聚类和拒绝标签分析模型行为，最终在测试集上对比llm_judge_label与人工标注的gt_answer进行性能验证。

背景与挑战

背景概述

ultra_short_form_generations_labeled_2数据集是近年来自然语言处理领域针对短文本生成与评估需求而构建的重要资源。该数据集由Meta与Google等机构的研究团队联合开发，旨在解决开放域问答与短文本生成任务中模型输出的语义一致性与多样性评估问题。数据集通过整合NQ-Open和PopQA两大权威问答资源，并采用Llama-3.1-8B与Gemma-2.9B等前沿大语言模型生成多维度标注数据，为生成式AI的可靠性研究提供了包含语义聚类、拒绝识别、熵值标准化等12种专业标注的基准测试平台。其创新性地引入对话上下文与多标签评估体系，显著推进了生成文本可解释性研究的发展进程。

当前挑战

该数据集面临的挑战主要体现在评估体系构建与数据质量控制两个维度。在领域问题层面，短文本生成存在语义模糊边界界定困难，现有贪婪蕴含标注与SQUAD评估指标难以全面捕捉生成文本的语义偏离；多模型并行生成的语义聚类面临高维稀疏特征对齐难题，拒绝识别标签的判定阈值缺乏统一标准。在构建过程中，大规模语言模型输出的稳定性控制具有挑战，不同模型架构导致的生成风格差异需通过归一化熵值进行校准；人工验证环节存在标注一致性维护困难，对话上下文的连贯性保持需要设计复杂的质量控制流程。

常用场景

经典使用场景

在自然语言处理领域，ultra_short_form_generations_labeled_2数据集为研究者提供了丰富的短文本生成样本，特别适用于评估和优化大型语言模型在开放式问答任务中的表现。数据集中的对话结构和多标签标注为模型生成结果的多样性和准确性提供了基准测试平台。

实际应用

实际应用中，该数据集可显著提升智能客服系统的应答质量，通过对比不同模型生成的候选回答，筛选出最符合用户需求的响应。教育领域的自动答题系统也能基于其标注体系，优化知识检索和答案生成的准确性。

衍生相关工作

基于该数据集衍生的研究主要集中在三个方面：开发更精确的生成质量评估指标、改进对话系统的拒绝机制设计，以及探索语义相似度计算的新方法。这些工作推动了可控文本生成和对话系统可解释性研究的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集