five

Iker/NoticIA_Human_Validation

收藏
Hugging Face2024-04-12 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/Iker/NoticIA_Human_Validation
下载链接
链接失效反馈
官方服务:
资源简介:
NoticIA Human Validation数据集是一个用于西班牙语点击诱饵文章摘要任务的数据集,包含100个测试样本。每个样本包括文章的URL、标题、原始摘要、第二个摘要以及文章正文。数据集由Iker García-Ferrero和Begoña Altuna手工创建和验证,主要用于学术研究,禁止用于商业目的或开发有害系统。数据集的目标是研究当前的大型语言模型是否能够根据点击诱饵标题在文章正文中定位答案并生成简短的摘要。

NoticIA Human Validation数据集是一个用于西班牙语点击诱饵文章摘要任务的数据集,包含100个测试样本。每个样本包括文章的URL、标题、原始摘要、第二个摘要以及文章正文。数据集由Iker García-Ferrero和Begoña Altuna手工创建和验证,主要用于学术研究,禁止用于商业目的或开发有害系统。数据集的目标是研究当前的大型语言模型是否能够根据点击诱饵标题在文章正文中定位答案并生成简短的摘要。
提供机构:
Iker
原始信息汇总

数据集概述

基本信息

  • 语言: 西班牙语
  • 许可: CC BY-NC-SA 4.0
  • 多语言性: 单语种
  • 数据集大小: 小于1K
  • 源数据集: 原始数据
  • 任务类别: 摘要生成
  • 标签: 摘要生成, 点击诱饵, 新闻

数据集结构

  • 特征:
    • web_url: 新闻文章的URL
    • web_headline: 文章的标题(点击诱饵)
    • summary: NoticIA数据集中的原始摘要
    • summary2: 由另一个人编写的第二个摘要,用于验证summary的质量
    • web_text: 文章的正文
  • 分割:
    • test: 包含100个示例

数据集配置

  • 默认配置:
    • 数据文件:
      • test: test.jsonl

数据集用途

  • 目的: 用于构建针对学术研究的信息提取模型,研究当前大型语言模型(LLMs)是否能在给定点击诱饵标题的问题下,在文章正文中定位答案并进行简要总结。
  • 限制: 不能用于开发直接损害数据集中包含的报纸的系统,包括训练用于生成文章的盈利性LLMs,以及开发未经文章所有者许可自动总结文章的盈利性机器人。

数据集创建

标注者

引用

bittext @misc{noticia2024, title={NoticIA: A Clickbait Article Summarization Dataset in Spanish}, author={Iker García-Ferrero and Begoña Altuna}, year={2024}, eprint={2404.07611}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作