five

snipaid/instruct-snippet-mlsum-v2

收藏
Hugging Face2023-04-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/snipaid/instruct-snippet-mlsum-v2
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个用于新闻片段生成的多任务指令微调数据集,基于MLSUM数据集的约500篇新闻文章,并增加了机器生成的新闻片段。数据集支持生成标题、摘要、关键词、搜索引擎结果页面(SERP)和推文等任务,语言为德语。数据集的结构包括标签、指令、输入和输出四个特征。创建过程中使用了GPT-3.5生成指令,并提醒用户注意机器生成数据可能存在的幻觉、毒性和刻板印象问题。

这是一个用于新闻片段生成的多任务指令微调数据集,基于MLSUM数据集的约500篇新闻文章,并增加了机器生成的新闻片段。数据集支持生成标题、摘要、关键词、搜索引擎结果页面(SERP)和推文等任务,语言为德语。数据集的结构包括标签、指令、输入和输出四个特征。创建过程中使用了GPT-3.5生成指令,并提醒用户注意机器生成数据可能存在的幻觉、毒性和刻板印象问题。
提供机构:
snipaid
原始信息汇总

数据集概述

数据集名称

  • 名称: Instruct-Snippet-MLSUM-500-V2

数据集描述

  • 目的: 用于多任务指令微调,专注于新闻片段生成。
  • 来源: 基于MLSUM数据集的约500篇新闻文章样本,并增加了机器生成的新闻片段。

支持的任务

  • 任务: 生成新闻片段,包括标题、预告、摘要、关键词、SERP和推文。

语言

  • 语言: 德语 (de)

数据集结构

  • 特征:
    • label: 字符串类型
    • instruction: 字符串类型
    • input: 字符串类型
    • output: 字符串类型

数据集创建

  • 创建方式: 基于Snippet-MLSUM-500-V2数据集,使用GPT-3.5从人工策划的指令种子集中生成指令。

使用数据时的注意事项

  • 已知限制: 部分片段数据为机器生成,可能存在模型幻觉、毒性和刻板印象。

许可证信息

  • 许可证: MIT许可证
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作