snipaid/snippet-mlsum-500

Name: snipaid/snippet-mlsum-500
Creator: snipaid
Published: 2023-04-19 18:24:33
License: 暂无描述

Hugging Face2023-04-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/snipaid/snippet-mlsum-500

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从MLSUM数据集中随机抽取的约500篇新闻文章，并增加了机器生成的新闻片段。数据集支持生成新闻片段的任务，如标题、摘要、关键词、搜索引擎结果页面（SERP）和推文等。数据集的语言为德语。数据集的结构包括文本、标题、摘要、关键词、SERP标题、SERP描述、推文、URL、日期和主题等特征。数据集创建过程中，部分特征（如关键词、SERP标题、SERP描述和推文）是通过GPT-3.5机器生成的，可能存在模型幻觉的迹象。数据集采用MIT许可证。

提供机构：

snipaid

原始信息汇总

数据集概述

数据集名称

Snippet-MLSUM-500

数据集摘要

本数据集包含约500篇来自MLSUM数据集的新闻文章样本，并增加了机器生成的相关新闻片段。

支持的任务

数据集旨在支持生成新闻片段的任务，如标题、预告、关键词、SERP和推文，适用于德语新闻文章。

语言

德语 (de)

数据集结构

text: 字符串特征
title: 字符串特征
teaser: 字符串特征
keywords: 字符串特征
serp_title: 字符串特征
serp_description: 字符串特征
tweet: 字符串特征
url: 字符串特征
date: 字符串特征
topic: 字符串特征

数据集创建

数据集中的新闻文章是从MLSUM中随机抽取的约500篇，按主题平衡。特征如文本、标题、预告（原为MLSUM中的摘要）、URL、日期和主题直接从MLSUM复制。特征如关键词、serp_title、serp_description和tweet由GPT-3.5生成，生成的特征符合发布时SERPs和推文的长度限制。

使用数据时的考虑

已知限制

部分片段数据是机器生成的，特别是关键词、serp_title、serp_description和tweet，可能显示出模型幻觉的迹象。

许可证信息

本数据集根据MIT许可证发布。

5,000+

优质数据集

54 个

任务类型

进入经典数据集