grimulkan/wikipedia-summaries

Name: grimulkan/wikipedia-summaries
Creator: grimulkan
Published: 2024-01-13 02:42:18
License: 暂无描述

Hugging Face2024-01-13 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/grimulkan/wikipedia-summaries

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含随机选择的维基百科文章的摘要，这些摘要以fastchat JSON格式生成，使用了`gpt-4-1106-preview`模型。摘要请求包括标准详细摘要、项目符号列表摘要、表格形式摘要和ELI5形式摘要。摘要输入可以是单个文章或一系列较短的文章。摘要请求的措辞和位置是随机选择的。维基百科文章被转换为文本并进行了各种随机修改。

提供机构：

grimulkan

原始信息汇总

数据集概述

数据内容

数据集包含随机维基百科文章的摘要，采用fastchat JSON格式，由gpt-4-1106-preview生成。
摘要请求类型包括：
- 标准详细摘要
- 以项目符号列表形式的摘要
- 以表格形式（Markdown表格）的摘要
- ELI5形式（“像我5岁一样解释”）的摘要
摘要输入可以是单篇文章，也可以是按顺序呈现的一系列较短文章，输出将包括每个输入文档的摘要，按顺序排列，并带有子标题。

数据处理

摘要请求的措辞和位置是随机选择的（在文章之前或之后）。
维基百科文章本身被转换为文本，并经过各种随机方式的增强/修改（如删除子标题、项目符号、引用/背景等）。

使用建议

设计用于训练32K上下文长度的模型。
在使用数据项进行训练之前，检查总对话长度，确保它们适合目标上下文窗口，并丢弃任何不适合的数据。

5,000+

优质数据集

54 个

任务类型

进入经典数据集