snipaid/instruct-snippet-mlsum
收藏Hugging Face2023-04-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/snipaid/instruct-snippet-mlsum
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于新闻片段生成多任务指令微调的数据集,基于约500篇来自MLSUM数据集的新闻文章,并增加了机器生成的新闻片段。支持的任务包括生成新闻标题、摘要、关键词、搜索引擎结果页面(SERP)标题标签和元描述以及推文。数据集的语言为德语,结构包括标签、指令、输入和输出四个特征。数据集的创建基于Snippet-MLSUM-500,并通过GPT-3.5生成指令。使用数据时需要注意部分片段是机器生成的,可能存在模型幻觉、毒性和刻板印象等问题。
提供机构:
snipaid
原始信息汇总
数据集概述
数据集名称
Instruct-Snippet-MLSUM-500
数据集描述
这是一个用于多任务指令微调的数据集,主要用于新闻片段生成。该数据集基于约500篇来自MLSUM数据集的新闻文章样本,并增加了机器生成的新闻片段。
支持的任务
数据集旨在支持生成新闻片段的任务,包括标题、预告、关键词、SERP标题标签、SERP元描述和推文。
语言
数据集语言为德语(de)。
数据集结构
label: 字符串特征instruction: 字符串特征input: 字符串特征output: 字符串特征
数据集创建
数据集由Snippet-MLSUM-500创建,指令由GPT-3.5根据人工策划的种子集生成。
使用数据时的注意事项
数据集的部分片段是机器生成的,可能存在模型幻觉、毒性和刻板印象的迹象。
许可证信息
数据集根据MIT许可证授权。



