analysis_dataset_0428

Hugging Face2025-04-28 更新2025-04-29 收录

下载链接：

https://huggingface.co/datasets/Onuii/analysis_dataset_0428

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个教育对话数据集，包含了教室中教师与学生的对话记录，包括对话的文本内容、预处理后的文本内容、学科、发话量及其比例、提问类型和比例、提问检核状态等信息。数据集还包括学生的姓名、年级、成绩和性别，以及教师的姓名和编号。此外，数据集还记录了教学状态、教学时间和持续时间等。

创建时间：

2025-04-28

原始信息汇总

数据集概述

基本信息

数据集名称: analysis_dataset_0428
存储位置: https://huggingface.co/datasets/Onuii/analysis_dataset_0428
下载大小: 1162494308 bytes
数据集大小: 2409564048 bytes
训练集样本数: 28802

数据结构

特征列

标识信息
- room_id: 字符串类型
- teacher: 字符串类型
- student: 字符串类型
- pagecall_room_id: 字符串类型
文本内容
- text_x: 字符串类型
- preprocessed_text_x: 字符串类型
教学相关属性
- subject_x: 字符串类型
- subject_y: 字符串类型
- rn_x: 字符串类型
- rn_y: 整型
- lvt: 字符串类型
- tutoring_state: 字符串类型
- tteok_ham_type: 字符串类型
- lecture_vt_no: 整型
发言量统计
- 전체 발화량: 整型
- 선생 발화량: 整型
- 학생 발화량: 整型
- 선생 발화량 비율: 浮点型
- 학생 발화량 비율: 浮点型
问题类型统计
- 디깅 질문 수: 浮点型
- 구체적 질문 수: 浮点型
- 비구체적 질문 수: 浮点型
- 학습 질문 중 디깅 질문 비율: 浮点型
- 학습 질문 중 구체적 질문 비율: 浮点型
- 학습 질문 중 비구체적 질문 비율: 浮点型
验证信息
- 디깅 질문 검수 여부: 布尔型
- 구체적 질문 검수 여부: 布尔型
- check1: 布尔型
- check2: 布尔型
学生信息
- student_user_No: 整型
- student_name: 字符串类型
- student_year: 字符串类型
- student_grade: 字符串类型
- student_gender: 字符串类型
教师信息
- teacher_user_no: 整型
- teacher_name: 字符串类型
时间信息
- tutoring_datetime: 时间戳类型
- done_month: 浮点型
- duration: 整型
其他信息
- nps: 字符串类型

数据划分

训练集: 包含28802个样本，占用2409564048 bytes

搜集汇总

数据集介绍

构建方式

在教育教学分析领域，analysis_dataset_0428数据集通过系统化采集在线辅导课堂的交互数据构建而成。数据集囊括了课堂对话文本、参与者信息及教学行为量化指标，采用结构化存储方式记录每场辅导会话的完整元数据。技术实现上通过自然语言处理技术对原始对话进行预处理，并采用多维度标注体系对提问类型、发言比例等教学特征进行人工核查与统计计算，确保数据质量与一致性。

特点

该数据集最显著的特点是具备细粒度的教学行为量化特征，包含师生发言量统计、提问类型分类及比例计算等27个结构化字段。数据覆盖语文学科多个年级的教学场景，每条记录精确到单次辅导会话层级，且通过布尔型字段实现质量校验。时间维度上跨度长达数月，能够支持纵向教学效果分析，而匿名化处理的师生个人信息则兼顾了研究伦理要求。

使用方法

研究人员可通过HuggingFace平台直接加载该数据集进行教育数据挖掘，建议优先利用预处理文本字段开展自然语言处理任务。对于教学分析研究，可结合发言量比例与提问类型字段构建回归模型，预测教学效果指标。使用时应区分训练集与验证集，注意时间戳字段可用于构建时序分析模型，而布尔型校验字段可作为数据过滤条件确保分析可靠性。

背景与挑战

背景概述

analysis_dataset_0428数据集聚焦于教育领域的师生互动分析，由专业研究团队构建，旨在深入探究课堂教学中的对话模式与学习效果之间的关联。该数据集收录了丰富的课堂对话元数据，包括师生发言量、提问类型分布以及学习者特征等多维度指标，为教育质量评估和教学策略优化提供了数据支撑。其核心价值在于通过量化分析手段，揭示不同教学情境下师生互动的动态特征及其对学习成效的影响机制。

当前挑战

该数据集面临的主要挑战体现在两个方面：在领域问题层面，如何准确界定不同类型教学提问（如挖掘式提问与具体提问）对学习效果的影响权重，这需要解决教育心理学中话语分析与学习成效的复杂映射问题；在构建层面，原始对话文本的预处理涉及韩语特有的语言特征处理，且人工标注环节需克服教学场景多样性带来的标注一致性难题，这对数据质量控制提出了较高要求。

常用场景

经典使用场景

在教育研究领域，analysis_dataset_0428数据集被广泛用于分析师生互动模式。该数据集通过记录课堂对话的详细指标，如师生发言量、提问类型及比例，为研究者提供了量化师生互动的工具。经典使用场景包括探究不同教学风格对学生参与度的影响，以及分析提问策略与学习效果之间的关联。

实际应用

在实际教学评估中，该数据集支持教育机构进行教学质量监控。学校管理者可通过分析师生发言比例、提问质量等指标，识别需要改进的教学环节。同时，教育培训机构可利用这些数据优化教师培训方案，针对性提升教师的课堂互动能力。

衍生相关工作

基于该数据集衍生的经典研究包括《基于发言模式的教学效果预测模型》和《不同学科背景下师生互动特征比较》。这些工作深入挖掘了数据集的多维特征，建立了教学行为与学习成效的关联模型，推动了智能教育评估领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集