RankRAG训练数据集|自然语言处理数据集|检索增强生成数据集
收藏RankRAG 数据收集应用
概述
RankRAG 数据收集应用是一个用于收集训练 RankRAG 模型所需数据的 Streamlit 应用程序。该应用允许用户输入问题、答案和上下文段落,这些数据对于构建高质量的检索增强生成(RAG)任务数据集至关重要。
功能
- Home/Add Data: 输入并保存各种任务类型的问题、答案和上下文段落。
- View Data: 查看收集的数据,并将其上传到 Google Sheet 进行进一步处理和分析。
- Google Sheets 集成: 使用 Google Cloud 服务帐户自动更新 Google Sheets 中的收集数据。
开始使用
先决条件
- Conda
- Python 3.7 或更高版本
安装步骤
-
克隆仓库: bash git clone https://github.com/casualcomputer/rankRag-train-data.git cd rankRag-train-data
-
创建 Conda 环境: bash conda env create -f conda_environment.yaml conda activate rankrag-env
-
设置 Google Cloud 服务帐户:
- 在 Google Cloud 上创建一个服务帐户。
- 下载 JSON 密钥文件。
- 设置环境变量
gcp_service_account
为 JSON 密钥文件的内容。
示例使用
.env
文件: bash echo gcp_service_account={"type": "service_account", "project_id": "...", ...} > .env -
运行应用程序: bash streamlit run app.py
使用方法
-
Home/Add Data:
- 从下拉菜单中选择任务类型。
- 输入问题、答案和上下文段落。
- 点击“提交”按钮保存数据。
-
View Data:
- 使用侧边栏导航到“View Data”页面。
- 查看每个任务类型的收集数据。
- 点击“上传到 Google Sheet”按钮,将收集的数据更新到 Google Sheet 中。

中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
TT100K - Tsinghua-Tencent 100K
TT100K数据集是一个用于交通标志检测和识别的大规模数据集,包含100,000张标注的交通标志图像。该数据集主要用于计算机视觉和自动驾驶领域的研究。
cg.cs.tsinghua.edu.cn 收录
GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录