five

grimulkan/wikipedia-summaries

收藏
Hugging Face2024-01-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/grimulkan/wikipedia-summaries
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含随机选择的维基百科文章的摘要,这些摘要以fastchat JSON格式生成,使用了`gpt-4-1106-preview`模型。摘要请求包括标准详细摘要、项目符号列表摘要、表格形式摘要和ELI5形式摘要。摘要输入可以是单个文章或一系列较短的文章。摘要请求的措辞和位置是随机选择的。维基百科文章被转换为文本并进行了各种随机修改。

该数据集包含随机选择的维基百科文章的摘要,这些摘要以fastchat JSON格式生成,使用了`gpt-4-1106-preview`模型。摘要请求包括标准详细摘要、项目符号列表摘要、表格形式摘要和ELI5形式摘要。摘要输入可以是单个文章或一系列较短的文章。摘要请求的措辞和位置是随机选择的。维基百科文章被转换为文本并进行了各种随机修改。
提供机构:
grimulkan
原始信息汇总

数据集概述

数据内容

  • 数据集包含随机维基百科文章的摘要,采用fastchat JSON格式,由gpt-4-1106-preview生成。
  • 摘要请求类型包括:
    • 标准详细摘要
    • 以项目符号列表形式的摘要
    • 以表格形式(Markdown表格)的摘要
    • ELI5形式(“像我5岁一样解释”)的摘要
  • 摘要输入可以是单篇文章,也可以是按顺序呈现的一系列较短文章,输出将包括每个输入文档的摘要,按顺序排列,并带有子标题。

数据处理

  • 摘要请求的措辞和位置是随机选择的(在文章之前或之后)。
  • 维基百科文章本身被转换为文本,并经过各种随机方式的增强/修改(如删除子标题、项目符号、引用/背景等)。

使用建议

  • 设计用于训练32K上下文长度的模型。
  • 在使用数据项进行训练之前,检查总对话长度,确保它们适合目标上下文窗口,并丢弃任何不适合的数据。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作