five

h2oai/db_dirs

收藏
Hugging Face2024-05-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/h2oai/db_dirs
下载链接
链接失效反馈
官方服务:
资源简介:
h2oGPT数据集是一个用于问答任务的数据集,包含了多个不同的数据源。具体包括:DriverlessAI文档的问答数据、用户提供的PDF和文本文件的问答数据、h2oGPT GitHub仓库的问答数据、Wikipedia子集的问答数据以及截至2023年4月1日的完整Wikipedia文章的问答数据。用户可以通过提供的脚本生成自己的私有文档集合的问答数据,并使用h2oGPT模型进行问答任务。
提供机构:
h2oai
原始信息汇总

h2oGPT DataBase 数据集概述

数据集内容

文件详情

文件名 用途 来源 许可证
db_dir_DriverlessAI_docs.zip DriverlessAI 文档问答 源代码 CC-BY-NC
db_dir_UserData.zip 示例PDF和文本文件问答 源代码 ArXiv
db_dir_github_h2oGPT.zip h2oGPT GitHub 仓库问答 源代码 Apache V2
db_dir_wiki.zip 维基百科示例子集问答 源代码 Wikipedia CC-BY-SA
db_dir_wiki_full.zip 截至2023年4月1日的完整维基百科问答 源代码 Wikipedia CC-BY-SA

使用方法

  • 用户数据可以通过运行 make_db.py 生成,适用于任何私人离线文档集合。
  • 使用私人文档集合进行问答时,将文档(PDF、文本等)放入名为 user_path 的文件夹中,并运行 python make_db.py
  • 使用聊天机器人时,运行 python generate.py --base_model=h2oai/h2ogpt-oig-oasst1-512-6.9b --langchain_mode=UserData
  • 若已获取所有数据库(除 wiki_full 外)并解压至当前目录,可运行 python generate.py --base_model=h2oai/h2ogpt-oasst1-512-12b --load_8bit=True --langchain_mode=UserData --visible_langchain_modes="[UserData, wiki, MyData, github h2oGPT, DriverlessAI docs]"
  • 若已获取所有数据库(包括 wiki_full)并解压至当前目录,可运行 python generate.py --base_model=h2oai/h2ogpt-oasst1-512-12b --load_8bit=True --langchain_mode=wiki_full --visible_langchain_modes="[UserData, wiki_full, MyData, github h2oGPT, DriverlessAI docs]"
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作