cnn_dailymail
收藏Hugging Face2025-09-18 更新2025-09-19 收录
下载链接:
https://huggingface.co/datasets/omarmohamed/cnn_dailymail
下载链接
链接失效反馈官方服务:
资源简介:
在评估模型 /weka/s223795137/Refusal_hallucination/SALORA_expirements/llama-3-8b-Instruct_summarization_1_alpha_64_r_1_hallucinated_summary_m3_5 时自动创建的数据集,包含3个配置,每个配置对应一个评估任务。数据集由6次运行的结果组成,每次运行结果都作为特定分割存储,并以运行时戳命名。"train" 分割始终指向最新结果,还有一个额外的配置 "results" 用于存储所有运行的聚合结果。
创建时间:
2025-09-14
原始信息汇总
数据集概述
基本信息
- 数据集名称:Evaluation run of /weka/s223795137/Refusal_hallucination/SALORA_expirements/llama-3-8b-Instruct_summarization_1_alpha_64_r_1_hallucinated_summary_m3_5
- 创建方式:在模型评估运行期间自动创建
- 模型路径:/weka/s223795137/Refusal_hallucination/SALORA_expirements/llama-3-8b-Instruct_summarization_1_alpha_64_r_1_hallucinated_summary_m3_5
数据集结构
- 配置数量:3个配置,每个对应一个评估任务
- 运行次数:6次运行,每次运行在各配置中作为特定分割
- 分割命名:使用运行时间戳命名,"train"分割始终指向最新结果
- 结果存储:额外配置"results"存储所有聚合的运行结果
配置详情
-
配置名称:__weka__s223795137__Refusal_hallucination__SALORA_expirements__llama-3-8b-Instruct_summarization_1_alpha_64_r_1_hallucinated_summary_m3_5__cnn_dailymail
- 数据文件:samples_cnn_dailymail_2025-09-18T22-13-35.003188.jsonl
-
配置名称:meta-llama__Meta-Llama-3-8B-Instruct/arc_easy__arc_easy
- 数据文件:samples_arc_easy_2025-09-17T14-29-21.608293.jsonl
-
配置名称:meta-llama__Meta-Llama-3-8B-Instruct/truthfulqa_mc1__truthfulqa_mc1
- 数据文件:samples_truthfulqa_mc1_2025-09-17T14-14-23.929506.jsonl
-
配置名称:meta-llama__Meta-Llama-3-8B-Instruct__cnn_dailymail
- 数据文件:samples_cnn_dailymail_2025-09-18T21-55-31.942509.jsonl
评估结果
- 最新运行时间:2025-09-18T22-13-35.003188
- 评估指标:
- ROUGE分数:0.1962832765061336
- ROUGE标准误差:N/A
- 评估任务:cnn_dailymail摘要任务
数据加载方式
可通过指定运行时间戳加载具体运行详情,最新结果始终在"train"分割中可用。
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,该数据集通过自动化评估流程构建,源自大型语言模型在文本摘要任务上的多次运行结果。每次运行生成独立的时间戳分割,涵盖多个配置以对应不同评估任务,最新结果始终映射至训练分割,确保数据的时效性与完整性。
特点
该数据集以多配置多分割结构为特点,每个配置对应特定评估任务,分割以时间戳标识便于追踪历史运行。数据集整合了汇总结果配置,提供如ROUGE分数等自动化评估指标,支持模型性能的纵向比较与分析,为文本生成研究提供结构化评估基础。
使用方法
用户可通过加载特定时间戳分割访问历史运行数据,或使用最新分割获取当前结果。数据集支持以JSONL格式解析样本文件,并可通过汇总配置获取跨任务评估指标,适用于模型性能验证、摘要质量评估及自动化评测流程的集成。
背景与挑战
背景概述
CNN/DailyMail数据集作为文本摘要领域的基准数据集,由DeepMind团队于2015年构建,旨在推动抽象式摘要技术的研究。该数据集源自CNN和DailyMail的新闻文章及其对应要点,核心研究问题聚焦于机器生成连贯且信息丰富的摘要。其对自然语言处理领域产生深远影响,成为评估摘要模型性能的重要标准。
当前挑战
该数据集主要挑战在于解决抽象式摘要中信息压缩与语义保持的平衡问题,要求模型具备深层语言理解与生成能力。构建过程中面临新闻数据版权获取、摘要质量一致性标注及大规模数据处理等挑战,同时需确保摘要与原文间逻辑连贯性,避免事实性错误。
常用场景
经典使用场景
在自然语言处理领域,CNN/DailyMail数据集作为文本摘要任务的基准数据集,被广泛应用于评估抽象式摘要模型的性能。该数据集包含新闻文章及其对应的人工撰写摘要,为模型训练提供了高质量的参考标准。研究者通过该数据集能够系统地评估生成摘要的连贯性、信息压缩能力和语义保真度,推动了自动摘要技术的发展。
实际应用
在实际应用层面,该数据集支撑的摘要技术已广泛应用于新闻聚合平台、智能办公文档处理和多媒体内容生成系统。基于其训练的模型能够快速提炼长篇新闻的核心信息,为媒体机构提供自动化的内容摘要服务,同时也在教育领域的文本精读辅助和商业情报分析中发挥重要作用。
衍生相关工作
该数据集催生了多项里程碑式的研究成果,包括基于注意力机制的Seq2Seq模型、指针生成网络以及预训练语言模型在摘要任务上的适配工作。这些研究不仅推动了Transformer架构在文本生成领域的发展,也为后续的BART、PEGASUS等专用摘要模型提供了至关重要的训练基础和评估基准。
以上内容由遇见数据集搜集并总结生成



