five

sehunnnn/123

收藏
Hugging Face2023-05-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sehunnnn/123
下载链接
链接失效反馈
官方服务:
资源简介:
LongForm数据集是通过利用英文语料库示例并增强指令来创建的。我们选择了来自C4和Wikipedia等现有语料库的多样化人类撰写的文档,并通过LLMs生成指令。然后,我们扩展了这些示例,包括Stack Exchange和WikiHow等结构化语料库示例,以及问答、电子邮件写作、语法错误纠正、故事/诗歌生成和文本摘要等任务示例。
提供机构:
sehunnnn
原始信息汇总

数据集概述

基本信息

  • 名称: LongForm
  • 许可证: openrail
  • 语言: en
  • 标签: instruction-tuning
  • 大小类别: 10K<n<100K

数据集结构

  • 特征:
    • input: string
    • output: string
    • source: string
    • subset: string
  • 分割:
    • train: 23,652 examples
    • validation: 2,042 examples
    • test: 2,045 examples
  • 下载大小: 45,525,146 bytes
  • 数据集大小: 76,029,519 bytes

任务类别

  • text2text-generation
  • text-generation
  • question-answering
  • conversational
  • summarization
  • table-question-answering

数据集内容

  • 来源:
    • Corpora:
      • C4: 10,000 examples
      • Wikipedia: 5,000 examples
    • Structured Corpora:
      • Stack Exchange: 4,380 examples
      • WikiHow: 2,500 examples
    • Tasks:
      • NIv2: 3,684 examples
      • Big Bench: 600 examples
      • BEA-GEC: 1,203 examples
      • Enron: 372 examples
    • 总计: 27,739 examples

模型性能

  • LongForm-LLaMA-7B:
    • All: 19.7
    • Recipe Generation: 21.7
    • ELI5: 18.6
    • Writing Prompts: 18.9

数据集创建方法

  • 利用英语语料库,从C4和Wikipedia等现有语料库中选择多样化的人工编写文档,并通过大型语言模型(LLMs)生成指令。此外,还扩展了这些示例,包括来自Stack Exchange和WikiHow的结构化语料库示例,以及如问答、电子邮件写作、语法错误纠正、故事/诗歌生成和文本摘要等任务示例。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作