grimulkan/wikipedia-summaries
收藏Hugging Face2024-01-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/grimulkan/wikipedia-summaries
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含随机选择的维基百科文章的摘要,这些摘要以fastchat JSON格式生成,使用了`gpt-4-1106-preview`模型。摘要请求包括标准详细摘要、项目符号列表摘要、表格形式摘要和ELI5形式摘要。摘要输入可以是单个文章或一系列较短的文章。摘要请求的措辞和位置是随机选择的。维基百科文章被转换为文本并进行了各种随机修改。
该数据集包含随机选择的维基百科文章的摘要,这些摘要以fastchat JSON格式生成,使用了`gpt-4-1106-preview`模型。摘要请求包括标准详细摘要、项目符号列表摘要、表格形式摘要和ELI5形式摘要。摘要输入可以是单个文章或一系列较短的文章。摘要请求的措辞和位置是随机选择的。维基百科文章被转换为文本并进行了各种随机修改。
提供机构:
grimulkan
原始信息汇总
数据集概述
数据内容
- 数据集包含随机维基百科文章的摘要,采用fastchat JSON格式,由
gpt-4-1106-preview生成。 - 摘要请求类型包括:
- 标准详细摘要
- 以项目符号列表形式的摘要
- 以表格形式(Markdown表格)的摘要
- ELI5形式(“像我5岁一样解释”)的摘要
- 摘要输入可以是单篇文章,也可以是按顺序呈现的一系列较短文章,输出将包括每个输入文档的摘要,按顺序排列,并带有子标题。
数据处理
- 摘要请求的措辞和位置是随机选择的(在文章之前或之后)。
- 维基百科文章本身被转换为文本,并经过各种随机方式的增强/修改(如删除子标题、项目符号、引用/背景等)。
使用建议
- 设计用于训练32K上下文长度的模型。
- 在使用数据项进行训练之前,检查总对话长度,确保它们适合目标上下文窗口,并丢弃任何不适合的数据。



