Align-Anything-Instruction-100K-zh|自然语言处理数据集|中文数据集数据集
收藏数据集卡片 Align-Anything-Instruction-100K-zh
亮点
- 数据来源:
- Firefly (47.8%)
- COIG (2.9%)
- 精心构建的QA对 (49.3%)
- 100K QA对 (中文):104,550个精心制作的指令,从多个中文数据集中精选和打磨,并使用GPT-4进一步增强QA对。
- 注意:此数据集的数据来源和打磨方法与Align-Anything-Instruction-100K(en)不同,并非直接从此数据集翻译而来。
数据概述
- 该数据集是Align-Anything的姊妹项目。
- 提供了一个高质量的中文指令遵循数据集,包含100K个问答对,涵盖总结、创作、提取、分类、角色扮演、知识问答、开放问答、推理、头脑风暴等多个类别。
- 100K QA对中,50.7%来自公共数据集如Firefly和COIG。其余49.3%的QA对由我们精心制作,并在专家指导下由GPT-4标注,类似于PKU-SafeRLHF数据集。
- 每个QA对都根据特定指南由GPT-4进行后处理,确保高质量的指令遵循数据集。
数据集比较
- 使用Align-Anything-Instruction-100K-zh (50K样本)和Firefly (50K样本)训练多个基础模型(Llama2-7B, Llama3-8B, Qwen2-7B),并在Just-Eval基准上评估微调模型,将评估提示翻译成中文进行评估。
- 模型在五个维度(有用性、清晰度、事实性、深度、参与度)上表现出色。
使用方法
-
使用
load_dataset()
函数加载数据集: python from datasets import load_datasetdataset = load_dataset("PKU-Alignment/Align-Anything-Instruction-100K-zh")

学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
Subway Dataset
该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。
www.kaggle.com 收录
中国行政区划数据
本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。
github 收录