somosnlp/NoticIA-it
收藏Hugging Face2024-04-24 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/somosnlp/NoticIA-it
下载链接
链接失效反馈官方服务:
资源简介:
NoticIA是一个包含850篇西班牙语新闻文章的数据集,每篇文章都带有引人注目的点击诱饵标题,并配有人工撰写的高质量单句摘要。点击诱饵文章通常通过标题引发读者的好奇心,但实际内容往往在文章末尾才揭示,且包含大量无关信息。该数据集旨在评估西班牙语语言模型的文本理解和摘要生成能力,挑战模型从大量无关信息中提取并简洁总结相关信息的技能。数据集由Iker García-Ferrero和Begoña Altuna手动标注,标注过程耗时约40小时。数据集分为训练集、验证集和测试集,分别包含700、50和100篇文章。
NoticIA是一个包含850篇西班牙语新闻文章的数据集,每篇文章都带有引人注目的点击诱饵标题,并配有人工撰写的高质量单句摘要。点击诱饵文章通常通过标题引发读者的好奇心,但实际内容往往在文章末尾才揭示,且包含大量无关信息。该数据集旨在评估西班牙语语言模型的文本理解和摘要生成能力,挑战模型从大量无关信息中提取并简洁总结相关信息的技能。数据集由Iker García-Ferrero和Begoña Altuna手动标注,标注过程耗时约40小时。数据集分为训练集、验证集和测试集,分别包含700、50和100篇文章。
提供机构:
somosnlp
原始信息汇总
数据集概述
数据集名称: Resumen Noticias Clickbait
语言: 西班牙语(es)
数据集大小: 小于1K(n<1K)
任务类别: 摘要生成(summarization)
数据集特征:
- id: 整数类型(int64)
- titular (标题): 字符串类型(string)
- respuesta (回答): 字符串类型(string)
- pregunta (问题): 字符串类型(string)
- texto (文本): 字符串类型(string)
- idioma (语言): 字符串类型(string)
- periodo (时期): 字符串类型(string)
- tarea (任务): 字符串类型(string)
- registro (记录): 字符串类型(string)
- dominio (领域): 字符串类型(string)
- país_origen (原产国): 字符串类型(string)
数据集分割:
- 训练集(train): 700个样本,总字节数5440051
- 验证集(validation): 50个样本,总字节数462364
- 测试集(test): 100个样本,总字节数782440
数据集大小: 下载大小3417692字节,数据集大小6684855字节
配置:
- 默认配置(default): 包含训练、验证和测试数据文件路径
标签:
- 摘要生成(summarization)
- 点击诱饵(clickbait)
- 新闻(news)
数据集详细描述
数据集内容: 包含850篇西班牙语新闻文章,每篇文章配有高质量的人工单句生成摘要。这些文章具有显著的点击诱饵标题,旨在通过好奇心吸引读者。
数据集用途: 主要用于科学研究,特别是评估西班牙语语言模型。禁止用于训练生成耸人听闻的标题或自动生成文章的模型。
数据集结构: 数据集已准备好用于评估语言模型,使用特定的提示(prompt)来利用新闻标题和文本。
数据集创建: 数据集由Iker García-Ferrero和Begoña Altuna手动注释,注释过程遵循严格的指导方针,总注释时间约为40小时。
数据集统计:
- 训练集、验证集和测试集总计850篇文章
- 平均标题字数:17
- 平均新闻文本字数:552
- 平均摘要字数:12
注释者:
- Iker García-Ferrero: 博士生,HiTZ语言技术中心
- Begoña Altuna: 博士后研究员,HiTZ语言技术中心
许可证: Apache 2.0,但商业使用需遵守每个新闻和媒体机构的许可。
搜集汇总
背景与挑战
背景概述
NoticIA-it是一个包含850篇西班牙语新闻文章的数据集,每篇文章都带有点击诱饵标题和高质量人工摘要,旨在评估语言模型从无关信息中提取并总结关键内容的能力。该数据集由专家手动标注,耗时约40小时,并分为训练集、验证集和测试集,以支持模型开发和测试。
以上内容由遇见数据集搜集并总结生成



