ambrosfitz/mighty-history-merge
收藏Hugging Face2024-01-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ambrosfitz/mighty-history-merge
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含两种类型的问题。第一种是通过ChatGPT 3.5 Turbo生成的关于美国历史的合成问题和答案,这些问题是基于随机选择的1607-2020年间的日期生成的,共重复了3000次。第二种是基于美国Yawp和Openstax美国历史的2048字符分块文本,这些文本被逐块输入到ChatGPT 3.5 Turbo中,生成上下文、问题和答案。
该数据集包含两种类型的问题。第一种是通过ChatGPT 3.5 Turbo生成的关于美国历史的合成问题和答案,这些问题是基于随机选择的1607-2020年间的日期生成的,共重复了3000次。第二种是基于美国Yawp和Openstax美国历史的2048字符分块文本,这些文本被逐块输入到ChatGPT 3.5 Turbo中,生成上下文、问题和答案。
提供机构:
ambrosfitz
原始信息汇总
数据集概述
数据集类型
- 合成生成的问题和答案,来自ChatGPT 3.5 Turbo,关于美国历史。
- 精心挑选的2048字符块,来自《美国Yawp》和《Openstax美国历史》,通过ChatGPT 3.5 Turbo生成上下文、问题和答案。
数据生成方法
-
合成历史问题生成:
- 使用Python脚本随机选择1607-2020年间的日期,生成历史问题。
- 重复3000次。
-
文本块处理:
- 将书籍或文本文件分割成块,每个块大小为8192字符。
- 使用ChatGPT 3.5 Turbo生成每个块的历史上下文、问题和答案。
数据格式
- 数据以CSV文件格式存储,包含问题和答案。
数据处理步骤
-
生成合成数据:
- 使用OpenAI API生成历史问题和答案。
- 将生成的数据存储在CSV文件中。
-
文本块分割:
- 将文本分割成指定大小的块。
- 保存分割后的块。
-
生成问题和答案:
- 对每个块生成历史上下文、问题和答案。
- 将结果保存为CSV文件。
注意事项
- 数据生成过程中可能存在单元格对齐问题,需检查数据完整性。
- 处理过程中删除已处理的块文件,以便下次处理时确定起始点。



