RAGbcqa|乳腺癌研究数据集|数据生成数据集
收藏RAGbcqa 数据集概述
数据集简介
RAGbcqa 是一个用于生成乳腺癌场景的 RAG 评估数据集的框架。该框架结合了 GPT-4 等大语言模型,能够根据用户提供的种子文档(如乳腺癌医学论文、治疗手册等)生成问题、答案和参考文献,作为评估样本。
项目结构
- data/
- seed_documents/:存放乳腺癌相关的种子文档。
- output_dataset/:生成的评估数据集将保存在此目录下。
- src/
- data_input.py:数据输入模块。
- preprocessing.py:数据预处理模块。
- qa_generation.py:问题和答案生成模块。
- reference_generation.py:参考文献生成模块。
- dataset_builder.py:数据集构建模块。
- evaluation.py:评估模块。
- main.py:主程序入口。
- requirements.txt:项目依赖文件。
- README.md:项目说明文件。
安装与使用
-
克隆或下载项目 bash git clone https://github.com/yourusername/RAGbcqa.git cd RAGbcqa
-
安装依赖 bash pip install -r requirements.txt
-
设置 OpenAI API 密钥 确保已设置
OPENAI_API_KEY
环境变量,或在src/qa_generation.py
中直接设置 API 密钥。 -
添加种子文档 将乳腺癌相关种子文档添加到
data/seed_documents/
目录下。 -
运行主程序 bash python src/main.py
生成的评估数据集将保存在
data/output_dataset/
目录下。
贡献
欢迎提出问题、建议或提交 Pull Request。
许可证
请在此处添加许可证信息。

学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
YOLO Drone Detection Dataset
为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。
github 收录
ChinaTravel
ChinaTravel是由南京大学国家重点实验室开发的一个真实世界基准数据集,专门用于评估语言代理在中国旅行规划中的应用。该数据集涵盖了中国10个最受欢迎城市的旅行信息,包括720个航班和5770趟列车,以及3413个景点、4655家餐厅和4124家酒店的详细信息。数据集通过问卷调查收集用户需求,并设计了一个可扩展的领域特定语言来支持自动评估。ChinaTravel旨在解决复杂的真实世界旅行规划问题,特别是在多兴趣点行程安排和用户偏好满足方面,为语言代理在旅行规划中的应用提供了重要的测试平台。
arXiv 收录
ImageNet-1K(ILSVRC2012)
ImageNet-1K(ILSVRC2012)是一个大规模的图像分类数据集,包含1000个类别的图像,用于训练和验证图像分类模型。
github 收录