h2oai/db_dirs
收藏Hugging Face2024-05-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/h2oai/db_dirs
下载链接
链接失效反馈官方服务:
资源简介:
h2oGPT数据集是一个用于问答任务的数据集,包含了多个不同的数据源。具体包括:DriverlessAI文档的问答数据、用户提供的PDF和文本文件的问答数据、h2oGPT GitHub仓库的问答数据、Wikipedia子集的问答数据以及截至2023年4月1日的完整Wikipedia文章的问答数据。用户可以通过提供的脚本生成自己的私有文档集合的问答数据,并使用h2oGPT模型进行问答任务。
提供机构:
h2oai
原始信息汇总
h2oGPT DataBase 数据集概述
数据集内容
文件详情
| 文件名 | 用途 | 来源 | 许可证 |
|---|---|---|---|
| db_dir_DriverlessAI_docs.zip | DriverlessAI 文档问答 | 源代码 | CC-BY-NC |
| db_dir_UserData.zip | 示例PDF和文本文件问答 | 源代码 | ArXiv |
| db_dir_github_h2oGPT.zip | h2oGPT GitHub 仓库问答 | 源代码 | Apache V2 |
| db_dir_wiki.zip | 维基百科示例子集问答 | 源代码 | Wikipedia CC-BY-SA |
| db_dir_wiki_full.zip | 截至2023年4月1日的完整维基百科问答 | 源代码 | Wikipedia CC-BY-SA |
使用方法
- 用户数据可以通过运行 make_db.py 生成,适用于任何私人离线文档集合。
- 使用私人文档集合进行问答时,将文档(PDF、文本等)放入名为
user_path的文件夹中,并运行python make_db.py。 - 使用聊天机器人时,运行
python generate.py --base_model=h2oai/h2ogpt-oig-oasst1-512-6.9b --langchain_mode=UserData。 - 若已获取所有数据库(除 wiki_full 外)并解压至当前目录,可运行
python generate.py --base_model=h2oai/h2ogpt-oasst1-512-12b --load_8bit=True --langchain_mode=UserData --visible_langchain_modes="[UserData, wiki, MyData, github h2oGPT, DriverlessAI docs]"。 - 若已获取所有数据库(包括 wiki_full)并解压至当前目录,可运行
python generate.py --base_model=h2oai/h2ogpt-oasst1-512-12b --load_8bit=True --langchain_mode=wiki_full --visible_langchain_modes="[UserData, wiki_full, MyData, github h2oGPT, DriverlessAI docs]"。



