sehunnnn/123
收藏Hugging Face2023-05-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sehunnnn/123
下载链接
链接失效反馈官方服务:
资源简介:
LongForm数据集是通过利用英文语料库示例并增强指令来创建的。我们选择了来自C4和Wikipedia等现有语料库的多样化人类撰写的文档,并通过LLMs生成指令。然后,我们扩展了这些示例,包括Stack Exchange和WikiHow等结构化语料库示例,以及问答、电子邮件写作、语法错误纠正、故事/诗歌生成和文本摘要等任务示例。
提供机构:
sehunnnn
原始信息汇总
数据集概述
基本信息
- 名称: LongForm
- 许可证: openrail
- 语言: en
- 标签: instruction-tuning
- 大小类别: 10K<n<100K
数据集结构
- 特征:
- input: string
- output: string
- source: string
- subset: string
- 分割:
- train: 23,652 examples
- validation: 2,042 examples
- test: 2,045 examples
- 下载大小: 45,525,146 bytes
- 数据集大小: 76,029,519 bytes
任务类别
- text2text-generation
- text-generation
- question-answering
- conversational
- summarization
- table-question-answering
数据集内容
- 来源:
- Corpora:
- C4: 10,000 examples
- Wikipedia: 5,000 examples
- Structured Corpora:
- Stack Exchange: 4,380 examples
- WikiHow: 2,500 examples
- Tasks:
- NIv2: 3,684 examples
- Big Bench: 600 examples
- BEA-GEC: 1,203 examples
- Enron: 372 examples
- 总计: 27,739 examples
- Corpora:
模型性能
- LongForm-LLaMA-7B:
- All: 19.7
- Recipe Generation: 21.7
- ELI5: 18.6
- Writing Prompts: 18.9
数据集创建方法
- 利用英语语料库,从C4和Wikipedia等现有语料库中选择多样化的人工编写文档,并通过大型语言模型(LLMs)生成指令。此外,还扩展了这些示例,包括来自Stack Exchange和WikiHow的结构化语料库示例,以及如问答、电子邮件写作、语法错误纠正、故事/诗歌生成和文本摘要等任务示例。



