five

ambrosfitz/mighty-history-merge

收藏
Hugging Face2024-01-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ambrosfitz/mighty-history-merge
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含两种类型的问题。第一种是通过ChatGPT 3.5 Turbo生成的关于美国历史的合成问题和答案,这些问题是基于随机选择的1607-2020年间的日期生成的,共重复了3000次。第二种是基于美国Yawp和Openstax美国历史的2048字符分块文本,这些文本被逐块输入到ChatGPT 3.5 Turbo中,生成上下文、问题和答案。

该数据集包含两种类型的问题。第一种是通过ChatGPT 3.5 Turbo生成的关于美国历史的合成问题和答案,这些问题是基于随机选择的1607-2020年间的日期生成的,共重复了3000次。第二种是基于美国Yawp和Openstax美国历史的2048字符分块文本,这些文本被逐块输入到ChatGPT 3.5 Turbo中,生成上下文、问题和答案。
提供机构:
ambrosfitz
原始信息汇总

数据集概述

数据集类型

  • 合成生成的问题和答案,来自ChatGPT 3.5 Turbo,关于美国历史。
  • 精心挑选的2048字符块,来自《美国Yawp》和《Openstax美国历史》,通过ChatGPT 3.5 Turbo生成上下文、问题和答案。

数据生成方法

  1. 合成历史问题生成

    • 使用Python脚本随机选择1607-2020年间的日期,生成历史问题。
    • 重复3000次。
  2. 文本块处理

    • 将书籍或文本文件分割成块,每个块大小为8192字符。
    • 使用ChatGPT 3.5 Turbo生成每个块的历史上下文、问题和答案。

数据格式

  • 数据以CSV文件格式存储,包含问题和答案。

数据处理步骤

  1. 生成合成数据

    • 使用OpenAI API生成历史问题和答案。
    • 将生成的数据存储在CSV文件中。
  2. 文本块分割

    • 将文本分割成指定大小的块。
    • 保存分割后的块。
  3. 生成问题和答案

    • 对每个块生成历史上下文、问题和答案。
    • 将结果保存为CSV文件。

注意事项

  • 数据生成过程中可能存在单元格对齐问题,需检查数据完整性。
  • 处理过程中删除已处理的块文件,以便下次处理时确定起始点。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作