somosnlp/NoticIA-it

Name: somosnlp/NoticIA-it
Creator: somosnlp
Published: 2024-04-24 11:08:49
License: 暂无描述

Hugging Face2024-04-24 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/somosnlp/NoticIA-it

下载链接

链接失效反馈

官方服务：

资源简介：

NoticIA是一个包含850篇西班牙语新闻文章的数据集，每篇文章都带有引人注目的点击诱饵标题，并配有人工撰写的高质量单句摘要。点击诱饵文章通常通过标题引发读者的好奇心，但实际内容往往在文章末尾才揭示，且包含大量无关信息。该数据集旨在评估西班牙语语言模型的文本理解和摘要生成能力，挑战模型从大量无关信息中提取并简洁总结相关信息的技能。数据集由Iker García-Ferrero和Begoña Altuna手动标注，标注过程耗时约40小时。数据集分为训练集、验证集和测试集，分别包含700、50和100篇文章。

提供机构：

somosnlp

原始信息汇总

数据集概述

数据集名称： Resumen Noticias Clickbait

语言： 西班牙语（es）

数据集大小： 小于1K（n<1K）

任务类别： 摘要生成（summarization）

数据集特征：

id: 整数类型（int64）
titular (标题): 字符串类型（string）
respuesta (回答): 字符串类型（string）
pregunta (问题): 字符串类型（string）
texto (文本): 字符串类型（string）
idioma (语言): 字符串类型（string）
periodo (时期): 字符串类型（string）
tarea (任务): 字符串类型（string）
registro (记录): 字符串类型（string）
dominio (领域): 字符串类型（string）
país_origen (原产国): 字符串类型（string）

数据集分割：

训练集（train）: 700个样本，总字节数5440051
验证集（validation）: 50个样本，总字节数462364
测试集（test）: 100个样本，总字节数782440

数据集大小： 下载大小3417692字节，数据集大小6684855字节

配置：

默认配置（default）: 包含训练、验证和测试数据文件路径

标签：

摘要生成（summarization）
点击诱饵（clickbait）
新闻（news）

数据集详细描述

数据集内容： 包含850篇西班牙语新闻文章，每篇文章配有高质量的人工单句生成摘要。这些文章具有显著的点击诱饵标题，旨在通过好奇心吸引读者。

数据集用途： 主要用于科学研究，特别是评估西班牙语语言模型。禁止用于训练生成耸人听闻的标题或自动生成文章的模型。

数据集结构： 数据集已准备好用于评估语言模型，使用特定的提示（prompt）来利用新闻标题和文本。

数据集创建： 数据集由Iker García-Ferrero和Begoña Altuna手动注释，注释过程遵循严格的指导方针，总注释时间约为40小时。

数据集统计：

训练集、验证集和测试集总计850篇文章
平均标题字数：17
平均新闻文本字数：552
平均摘要字数：12

注释者：

Iker García-Ferrero: 博士生，HiTZ语言技术中心
Begoña Altuna: 博士后研究员，HiTZ语言技术中心

许可证： Apache 2.0，但商业使用需遵守每个新闻和媒体机构的许可。

搜集汇总

背景与挑战

背景概述

NoticIA-it是一个包含850篇西班牙语新闻文章的数据集，每篇文章都带有点击诱饵标题和高质量人工摘要，旨在评估语言模型从无关信息中提取并总结关键内容的能力。该数据集由专家手动标注，耗时约40小时，并分为训练集、验证集和测试集，以支持模型开发和测试。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集