High-quality-Chinese-Q-A-dataset|中文问答数据集|语言模型训练数据集
收藏数据集概述
数据集名称
- High-quality-Chinese-Q-A-dataset
数据集描述
- 该数据集是通过清洗ownthink_v2知识图谱三元组数据来构建的中文问答数据集,支持中文LLM。
- 原始数据包含约1.5亿行关系实体三元组,相当于简易版的百度百科或维基百科。
- 数据集包括Q&A数据和Prompt qa多轮COT数据。
数据集内容
-
原始数据
- 包含关系实体三元组数据。
-
Q&A数据
- 通过拼接三元组数据构造QA数据,并将数据shuffle。
- 下载链接:链接,提取码:kbge。
-
Q&A & Cot Prompt 数据
数据集应用
- 用于微调模型,如使用rwkv 1B5微调少量Cot Q&A数据,展示良好的zeroshot能力。

学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录
Yahoo Finance
Dataset About finance related to stock market
kaggle 收录