sehunnnn/123

Name: sehunnnn/123
Creator: sehunnnn
Published: 2023-05-19 14:17:37
License: 暂无描述

Hugging Face2023-05-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/sehunnnn/123

下载链接

链接失效反馈

官方服务：

资源简介：

LongForm数据集是通过利用英文语料库示例并增强指令来创建的。我们选择了来自C4和Wikipedia等现有语料库的多样化人类撰写的文档，并通过LLMs生成指令。然后，我们扩展了这些示例，包括Stack Exchange和WikiHow等结构化语料库示例，以及问答、电子邮件写作、语法错误纠正、故事/诗歌生成和文本摘要等任务示例。

提供机构：

sehunnnn

原始信息汇总

数据集概述

基本信息

名称: LongForm
许可证: openrail
语言: en
标签: instruction-tuning
大小类别: 10K<n<100K

数据集结构

特征:
- input: string
- output: string
- source: string
- subset: string
分割:
- train: 23,652 examples
- validation: 2,042 examples
- test: 2,045 examples
下载大小: 45,525,146 bytes
数据集大小: 76,029,519 bytes

任务类别

text2text-generation
text-generation
question-answering
conversational
summarization
table-question-answering

数据集内容

来源:
- Corpora:
  - C4: 10,000 examples
  - Wikipedia: 5,000 examples
- Structured Corpora:
  - Stack Exchange: 4,380 examples
  - WikiHow: 2,500 examples
- Tasks:
  - NIv2: 3,684 examples
  - Big Bench: 600 examples
  - BEA-GEC: 1,203 examples
  - Enron: 372 examples
- 总计: 27,739 examples

模型性能

LongForm-LLaMA-7B:
- All: 19.7
- Recipe Generation: 21.7
- ELI5: 18.6
- Writing Prompts: 18.9

数据集创建方法

利用英语语料库，从C4和Wikipedia等现有语料库中选择多样化的人工编写文档，并通过大型语言模型（LLMs）生成指令。此外，还扩展了这些示例，包括来自Stack Exchange和WikiHow的结构化语料库示例，以及如问答、电子邮件写作、语法错误纠正、故事/诗歌生成和文本摘要等任务示例。

5,000+

优质数据集

54 个

任务类型

进入经典数据集