five

yhavinga/cnn_dailymail_dutch

收藏
Hugging Face2022-08-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yhavinga/cnn_dailymail_dutch
下载链接
链接失效反馈
官方服务:
资源简介:
CNN / DailyMail Dutch 🇳🇱🇧🇪数据集是从英文版本的CNN / DailyMail数据集翻译成荷兰语的,包含超过30万篇独特的新闻文章。该数据集支持摘要生成任务,包括抽取式和生成式摘要。数据集的结构包括文章、摘要和ID字段,分为训练、验证和测试三个部分。数据集的创建目的是为了帮助开发能够总结长文本的模型。此外,数据集可能存在性别偏见,并且新闻文章的写作风格可能导致重要信息集中在文章的前三分之一部分。
提供机构:
yhavinga
原始信息汇总

数据集概述

名称: CNN / Daily Mail Dutch 🇳🇱🇧🇪 Dataset

语言: 荷兰语 (nl)

许可证: Apache-2.0

多语言性: 单语种

大小: 100K<n<1M

来源数据集: 原始数据

任务类别: 摘要生成

任务ID: news-articles-summarization

论文代码ID: cnn-daily-mail-1

美观名称: CNN / Daily Mail

训练-评估索引:

  • 配置: 3.0.0
  • 任务: 摘要生成
  • 任务ID: summarization
  • 分割:
    • 评估分割: test
  • 列映射:
    • 文章: text
    • 亮点: target

数据集结构

数据实例

  • ID: 字符串,包含故事来源URL的SHA1哈希值的十六进制格式
  • 文章: 字符串,包含新闻文章的主体
  • 亮点: 字符串,包含文章作者编写的高亮内容

数据字段

  • id: 字符串,包含URL的SHA1哈希值的十六进制格式
  • article: 字符串,包含新闻文章的主体
  • highlights: 字符串,包含文章作者编写的高亮内容

数据分割

  • 训练: 287,113 实例
  • 验证: 13,368 实例
  • 测试: 11,490 实例

数据集创建

源数据

  • 初始数据收集和规范化: 数据包括新闻文章和高亮句子。文章用于上下文,高亮句子中的实体被隐藏,形成填空式问题。文章来自CNN和Daily Mail,时间范围为2007年至2015年。
  • 源语言生产者: 文本由CNN和Daily Mail的记者编写。

注释

  • 注释过程: 无
  • 注释者: 无

个人和敏感信息

  • 版本3.0未匿名化,因此数据集中可能包含个人姓名。

使用数据的考虑

数据集的社会影响

  • 目的: 帮助开发能够将长段文本总结为一两句话的模型。

偏见讨论

  • 性别偏见: 研究表明,CNN / Dailymail数据集相对于其他数据集性别偏见较低,但仍存在。
  • 地域偏见: 文章主要由美国和英国的记者编写,可能反映特定的美国和英国视角。

其他已知限制

  • 文章结构: 重要信息主要在文章的前三分之一部分呈现。
  • 数据质量: 25%的样本因模糊和指代错误而难以正确回答。
  • 机器生成摘要: 可能与原始文章在真实性上存在差异。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作