Iker/NoticIA
收藏Hugging Face2024-04-16 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/Iker/NoticIA
下载链接
链接失效反馈官方服务:
资源简介:
NoticIA是一个包含850篇西班牙语新闻文章的数据集,每篇文章都配有引人注目的点击诱饵标题和高质量的人工编写单句摘要。该数据集专为学术研究设计,旨在研究当前的语言模型是否能根据点击诱饵标题从文章主体中提取信息并简短地总结信息。此外,该数据集还用于评估西班牙语语言模型的性能。
提供机构:
Iker
原始信息汇总
数据集概述
基本信息
- 语言: 西班牙语
- 许可: CC BY-NC-SA 4.0
- 多语言性: 单语种
- 数据集大小: n<1K
- 源数据集: 原始数据
- 任务类别: 摘要生成
- 数据集名称: NoticIA
数据集特征
- web_url: 新闻文章的URL,数据类型为字符串。
- web_headline: 文章的标题,属于点击诱饵,数据类型为字符串。
- summary: 由人工撰写的摘要,回答点击诱饵标题,数据类型为字符串。
- web_text: 文章的正文,数据类型为字符串。
数据集划分
- 训练集: 700个样本,2494253字节
- 验证集: 50个样本,214922字节
- 测试集: 100个样本,358972字节
数据集大小
- 下载大小: 1745629字节
- 数据集大小: 3068147字节
配置
- 默认配置: 包含训练、验证和测试数据文件路径。
标签
- 摘要生成
- 点击诱饵
- 新闻
数据集描述
NoticIA数据集包含850篇西班牙语新闻文章,每篇文章都有一个显著的点击诱饵标题,并配有人工编写的高质量单句生成摘要。
数据集用途
该数据集旨在构建适用于学术研究的模型,能够从大型文本中提取信息。目标是研究当前的大型语言模型(LLMs)是否能够在给定一个以点击诱饵标题形式提出的问题时,在文章正文中定位答案并总结信息。
数据集创建
数据集通过手工精心创建,利用两个来源编译点击诱饵文章:
- Twitter用户@ahorrandoclick1,他们转发点击诱饵文章并附上手工编写的摘要。
- 网络演示⚔️ClickbaitFighter⚔️,使用早期版本的数据集预训练模型,收集所有模型输入/输出并手动校正。
标注者
数据集由Iker García-Ferrero标注,并由Begoña Altuna验证。
引用
bittext @misc{noticia2024, title={NoticIA: A Clickbait Article Summarization Dataset in Spanish}, author={Iker García-Ferrero and Begoña Altuna}, year={2024}, eprint={2404.07611}, archivePrefix={arXiv}, primaryClass={cs.CL} }



