five

Education Dialogue Dataset|教育对话数据集|对话生成数据集

收藏
github2024-10-29 更新2024-10-31 收录
教育对话
对话生成
下载链接:
https://github.com/google-research-datasets/Education-Dialogue-Dataset
下载链接
链接失效反馈
资源简介:
教育对话数据集包含由Gemini Ultra生成的对话,这些对话发生在教师和学生之间,教师被提示教授特定主题,学生则被提示他们的学习偏好。数据集包含40,000个训练示例和7,234个测试示例,每个示例都是教师和学生之间的完整对话,包括主题和教师/学生偏好的元数据。
创建时间:
2024-10-29
原始信息汇总

Education Dialogue Dataset

数据描述

  • 包含40,000个训练样本和7,234个测试样本。
  • 每个样本是一个完整的教师与学生之间的对话,包含主题和教师/学生偏好的元数据。

数据格式

  • 数据由6个JSON文件组成:5个用于训练数据,1个用于测试数据。
  • 每个对话条目包含以下字段:
    • background_info:对话的上下文信息,包含以下字段:
      • topic:教师需要教授的主题。
      • student_prefrences:学生偏好的学习方式,例如讲座式学习或动手活动。
      • teacher_prefrences:教师偏好的教学方式,例如讲座式学习或动手活动。
      • student_reactions:如果学生不以他们偏好的方式学习,学生的反应,例如失去兴趣或可能适应其他方法。
      • teacher_reactions:如果学生不以教师偏好的方式学习,教师的反应,例如感到沮丧或可能适应学生。
    • conversation:教师和学生之间的对话列表,每个回合包含一个标识说话者的字段(称为role)和一个内容字段(称为text)。

数据生成

  • 数据通过提示Gemini Ultra生成,提示内容如下:
    • 模拟学校中教师和学生之间的对话。
    • 教师成功教授学生理解主题的概率很小。
    • 对话大约持续10-15个回合,但会在任意一方说“[end of conversation]”时结束。
    • 教师希望教授学生关于某个主题的知识。
    • 学生喜欢某种学习方式,教师事先不知道。
    • 学生偏好以某种方式学习,教师偏好以某种方式教学。
    • 输出对话和学生理解材料的概率。
AI搜集汇总
数据集介绍
main_image_url
构建方式
教育对话数据集(Education Dialogue Dataset, ED)通过提示Gemini Ultra生成,模拟了教师与学生之间的对话。这些对话围绕特定教学主题展开,教师根据预设的教学偏好进行教学,而学生则根据其学习偏好进行互动。数据集的构建过程中,教师和学生的反应也被纳入考虑,以反映真实教学情境中的动态变化。具体而言,数据集包含40,000个训练样本和7,234个测试样本,每个样本均为完整的对话,附带主题和教师/学生偏好的元数据。
使用方法
使用ED数据集时,研究者可以利用其丰富的元数据和对话内容进行多轮强化学习实验,以优化教学策略。数据集包含六个JSON文件,其中五个用于训练,一个用于测试。每个对话条目包含背景信息和对话内容,对话内容以轮次列表形式呈现,每轮包含发言者和文本内容。通过分析这些数据,研究者可以深入理解教学过程中的动态变化,并开发更有效的教学模型。
背景与挑战
背景概述
教育对话数据集(Education Dialogue Dataset, ED)是由Gemini Ultra通过特定提示生成的对话集合,主要用于模拟教师与学生之间的教学互动。该数据集的核心研究问题在于通过多轮对话,探讨教师如何在了解学生学习偏好的基础上,有效传授特定主题的知识。ED数据集包含了40,000个训练样本和7,234个测试样本,每个样本均为完整的教师与学生对话,附带关于主题和教师/学生偏好的元数据。该数据集的创建旨在支持多轮强化学习研究,特别是基于人类反馈的强化学习,其研究成果已在相关领域产生了显著影响。
当前挑战
教育对话数据集在构建过程中面临多项挑战。首先,模拟真实教学场景的复杂性要求对话内容既符合教育原则,又能反映学生的学习反应。其次,确保数据集的多样性和代表性,以涵盖不同教学风格和学习偏好,是一项艰巨任务。此外,评估学生是否真正理解所教授内容的主观性,增加了数据标注的难度。最后,如何在多轮对话中保持对话的自然性和连贯性,也是该数据集需要克服的重要挑战。
常用场景
经典使用场景
在教育对话领域,Education Dialogue Dataset(ED)数据集的经典使用场景主要集中在多轮对话的强化学习研究中。该数据集通过模拟教师与学生之间的对话,提供了丰富的上下文信息,包括教学主题、师生偏好及反应等。研究者可以利用这些对话数据,训练和评估对话系统,以优化教学策略,提升学生的学习体验。
解决学术问题
Education Dialogue Dataset通过提供大量结构化的对话数据,解决了教育领域中多轮对话建模的学术难题。该数据集不仅有助于研究如何根据学生的学习偏好调整教学方法,还能探索教师在面对不同学生反应时的适应策略。这些研究对于提升教育质量和个性化教学具有重要意义,为教育技术的进一步发展提供了坚实的基础。
实际应用
在实际应用中,Education Dialogue Dataset可用于开发智能教育助手,帮助教师根据学生的学习偏好和反应调整教学内容和方式。此外,该数据集还可应用于在线教育平台,通过分析学生与虚拟教师之间的对话,提供个性化的学习建议和反馈,从而提高学生的学习效果和满意度。
数据集最近研究
最新研究方向
在教育对话领域,Education Dialogue Dataset(ED)的最新研究方向主要集中在多轮强化学习与人类偏好反馈的结合上。该数据集通过模拟教师与学生之间的对话,探讨了如何在教学过程中根据学生的学习偏好和教师的教学偏好进行动态调整。研究者们利用ED数据集进行实验,旨在优化教学策略,提高学生的学习效果。这一研究不仅有助于开发更智能的教育辅助系统,还能为个性化教育提供理论支持,从而在教育科技领域引发深远影响。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

开源PHM数据集

本文分享了一个全球各大学、研究机构和公司捐赠的PHM(Prognostics and Health Management)开源数据集,涵盖加工制造、轨道交通、能源电力和半导体等行业的多种场景,包含部件级、设备级和产线级数据。用户可以利用这些数据开发智能分析和建模算法,数据集分类包括故障诊断、健康评估和寿命预测。

github 收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。

www.fao.org 收录