Education Dialogue Dataset|教育对话数据集|对话生成数据集
收藏Education Dialogue Dataset
数据描述
- 包含40,000个训练样本和7,234个测试样本。
- 每个样本是一个完整的教师与学生之间的对话,包含主题和教师/学生偏好的元数据。
数据格式
- 数据由6个JSON文件组成:5个用于训练数据,1个用于测试数据。
- 每个对话条目包含以下字段:
background_info
:对话的上下文信息,包含以下字段:topic
:教师需要教授的主题。student_prefrences
:学生偏好的学习方式,例如讲座式学习或动手活动。teacher_prefrences
:教师偏好的教学方式,例如讲座式学习或动手活动。student_reactions
:如果学生不以他们偏好的方式学习,学生的反应,例如失去兴趣或可能适应其他方法。teacher_reactions
:如果学生不以教师偏好的方式学习,教师的反应,例如感到沮丧或可能适应学生。
conversation
:教师和学生之间的对话列表,每个回合包含一个标识说话者的字段(称为role
)和一个内容字段(称为text
)。
数据生成
- 数据通过提示Gemini Ultra生成,提示内容如下:
- 模拟学校中教师和学生之间的对话。
- 教师成功教授学生理解主题的概率很小。
- 对话大约持续10-15个回合,但会在任意一方说“[end of conversation]”时结束。
- 教师希望教授学生关于某个主题的知识。
- 学生喜欢某种学习方式,教师事先不知道。
- 学生偏好以某种方式学习,教师偏好以某种方式教学。
- 输出对话和学生理解材料的概率。

中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
开源PHM数据集
本文分享了一个全球各大学、研究机构和公司捐赠的PHM(Prognostics and Health Management)开源数据集,涵盖加工制造、轨道交通、能源电力和半导体等行业的多种场景,包含部件级、设备级和产线级数据。用户可以利用这些数据开发智能分析和建模算法,数据集分类包括故障诊断、健康评估和寿命预测。
github 收录
FAOSTAT Agricultural Data
FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。
www.fao.org 收录