snipaid/instruct-snippet-mlsum-v2
收藏Hugging Face2023-04-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/snipaid/instruct-snippet-mlsum-v2
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于新闻片段生成的多任务指令微调数据集,基于MLSUM数据集的约500篇新闻文章,并增加了机器生成的新闻片段。数据集支持生成标题、摘要、关键词、搜索引擎结果页面(SERP)和推文等任务,语言为德语。数据集的结构包括标签、指令、输入和输出四个特征。创建过程中使用了GPT-3.5生成指令,并提醒用户注意机器生成数据可能存在的幻觉、毒性和刻板印象问题。
这是一个用于新闻片段生成的多任务指令微调数据集,基于MLSUM数据集的约500篇新闻文章,并增加了机器生成的新闻片段。数据集支持生成标题、摘要、关键词、搜索引擎结果页面(SERP)和推文等任务,语言为德语。数据集的结构包括标签、指令、输入和输出四个特征。创建过程中使用了GPT-3.5生成指令,并提醒用户注意机器生成数据可能存在的幻觉、毒性和刻板印象问题。
提供机构:
snipaid
原始信息汇总
数据集概述
数据集名称
- 名称: Instruct-Snippet-MLSUM-500-V2
数据集描述
- 目的: 用于多任务指令微调,专注于新闻片段生成。
- 来源: 基于MLSUM数据集的约500篇新闻文章样本,并增加了机器生成的新闻片段。
支持的任务
- 任务: 生成新闻片段,包括标题、预告、摘要、关键词、SERP和推文。
语言
- 语言: 德语 (de)
数据集结构
- 特征:
label: 字符串类型instruction: 字符串类型input: 字符串类型output: 字符串类型
数据集创建
- 创建方式: 基于Snippet-MLSUM-500-V2数据集,使用GPT-3.5从人工策划的指令种子集中生成指令。
使用数据时的注意事项
- 已知限制: 部分片段数据为机器生成,可能存在模型幻觉、毒性和刻板印象。
许可证信息
- 许可证: MIT许可证



