ambrosfitz/mighty-history-merge

Name: ambrosfitz/mighty-history-merge
Creator: ambrosfitz
Published: 2024-01-25 23:43:43
License: 暂无描述

Hugging Face2024-01-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ambrosfitz/mighty-history-merge

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含两种类型的问题。第一种是通过ChatGPT 3.5 Turbo生成的关于美国历史的合成问题和答案，这些问题是基于随机选择的1607-2020年间的日期生成的，共重复了3000次。第二种是基于美国Yawp和Openstax美国历史的2048字符分块文本，这些文本被逐块输入到ChatGPT 3.5 Turbo中，生成上下文、问题和答案。

提供机构：

ambrosfitz

原始信息汇总

数据集概述

数据集类型

合成生成的问题和答案，来自ChatGPT 3.5 Turbo，关于美国历史。
精心挑选的2048字符块，来自《美国Yawp》和《Openstax美国历史》，通过ChatGPT 3.5 Turbo生成上下文、问题和答案。

数据生成方法

合成历史问题生成：
- 使用Python脚本随机选择1607-2020年间的日期，生成历史问题。
- 重复3000次。
文本块处理：
- 将书籍或文本文件分割成块，每个块大小为8192字符。
- 使用ChatGPT 3.5 Turbo生成每个块的历史上下文、问题和答案。

数据格式

数据以CSV文件格式存储，包含问题和答案。

数据处理步骤

生成合成数据：
- 使用OpenAI API生成历史问题和答案。
- 将生成的数据存储在CSV文件中。
文本块分割：
- 将文本分割成指定大小的块。
- 保存分割后的块。
生成问题和答案：
- 对每个块生成历史上下文、问题和答案。
- 将结果保存为CSV文件。

注意事项

数据生成过程中可能存在单元格对齐问题，需检查数据完整性。
处理过程中删除已处理的块文件，以便下次处理时确定起始点。

5,000+

优质数据集

54 个

任务类型

进入经典数据集