Iker/NoticIA_Human_Validation

Name: Iker/NoticIA_Human_Validation
Creator: Iker
Published: 2024-04-12 10:57:08
License: 暂无描述

Hugging Face2024-04-12 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/Iker/NoticIA_Human_Validation

下载链接

链接失效反馈

官方服务：

资源简介：

NoticIA Human Validation数据集是一个用于西班牙语点击诱饵文章摘要任务的数据集，包含100个测试样本。每个样本包括文章的URL、标题、原始摘要、第二个摘要以及文章正文。数据集由Iker García-Ferrero和Begoña Altuna手工创建和验证，主要用于学术研究，禁止用于商业目的或开发有害系统。数据集的目标是研究当前的大型语言模型是否能够根据点击诱饵标题在文章正文中定位答案并生成简短的摘要。

提供机构：

Iker

原始信息汇总

数据集概述

基本信息

语言: 西班牙语
许可: CC BY-NC-SA 4.0
多语言性: 单语种
数据集大小: 小于1K
源数据集: 原始数据
任务类别: 摘要生成
标签: 摘要生成, 点击诱饵, 新闻

数据集结构

特征:
- web_url: 新闻文章的URL
- web_headline: 文章的标题（点击诱饵）
- summary: NoticIA数据集中的原始摘要
- summary2: 由另一个人编写的第二个摘要，用于验证summary的质量
- web_text: 文章的正文
分割:
- test: 包含100个示例

数据集配置

默认配置:
- 数据文件:
  - test: test.jsonl

数据集用途

目的: 用于构建针对学术研究的信息提取模型，研究当前大型语言模型（LLMs）是否能在给定点击诱饵标题的问题下，在文章正文中定位答案并进行简要总结。
限制: 不能用于开发直接损害数据集中包含的报纸的系统，包括训练用于生成文章的盈利性LLMs，以及开发未经文章所有者许可自动总结文章的盈利性机器人。

数据集创建

创建方式: 手工精心创建
数据来源:
- Twitter用户@ahorrandoclick1（750个示例）
- 网络演示⚔️ClickbaitFighter⚔️（100个示例）

标注者

原始创建者: Iker García-Ferrero
验证者: Begoña Altura
标注时间: 约40小时

引用

bittext @misc{noticia2024, title={NoticIA: A Clickbait Article Summarization Dataset in Spanish}, author={Iker García-Ferrero and Begoña Altuna}, year={2024}, eprint={2404.07611}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集