IntrEx-turn

Hugging Face2025-08-24 更新2025-08-25 收录

下载链接：

https://huggingface.co/datasets/XingweiT/IntrEx-turn

下载链接

链接失效反馈

官方服务：

资源简介：

IntrEx是一个针对教育对话中兴趣和预期兴趣进行注释的大型数据集。它基于教师-学生聊天室语料库（TSCC），通过序列级注释，可以研究兴趣在扩展对话中的变化。数据集经过严格的注释过程，使用比较评级方法来提高注释的一致性。

创建时间：

2025-08-23

原始信息汇总

IntrEx-turn 数据集概述

数据集基本信息

名称：IntrEx: A Dataset for Modeling Engagement in Educational Conversations (turn-level)
许可协议：cc-by-nc-4.0
语言：英语
标签：教育、心理语言学
数据规模：1K<n<10K

数据集描述

IntrEx是第一个大规模标注教育对话中趣味性和预期趣味性的数据集，专注于教师-学生互动场景。该数据集基于教师-学生聊天室语料库构建，通过引入序列级标注扩展了先前工作，能够研究兴趣在扩展对话中的演变过程。

数据标注

标注人员：超过100名第二语言学习者参与标注
标注方法：采用基于比较的评分方法，借鉴人类反馈强化学习技术以提高一致性
标注维度：包含趣味性评分和预期趣味性评分

数据字段说明

字段名称	描述
project_id	标注工作单元ID
page_id	标注页面编号
doccano_id	标注工具分配的ID
conversation_id	TSCC V2数据集中的对话ID
p0_int	第一位标注者的趣味性评分
p0_exp_int	第一位标注者的预期趣味性评分
p0_comparison	原始消息与替代方案的比较评分
p1_int	第二位标注者的趣味性评分
p1_exp_int	第二位标注者的预期趣味性评分
p1_comparison	原始消息与替代方案的比较评分
p2_int	第三位标注者的趣味性评分
p2_exp_int	第三位标注者的预期趣味性评分
p2_comparison	原始消息与替代方案的比较评分
text	被评分的对话轮次内容
raw_text	标注者看到的原始页面文本内容

研究应用

该数据集用于分析语言和认知因素对教育对话参与度的影响，包括具体性、可理解性、可读性和接受度等特征。研究还探索了大语言模型预测人类趣味性判断的能力。

相关资源

更多详细信息请访问：https://github.com/Xingwei-Tan/IntrEx

搜集汇总

数据集介绍

构建方式

在第二语言教育研究领域，IntrEx-turn数据集基于教师-学生聊天室语料库（TSCC）构建，采用严谨的多阶段标注流程。研究团队招募超过100名第二语言学习者作为标注者，运用受人类反馈强化学习启发的对比评分方法，对对话回合的有趣度和预期有趣度进行独立标注。每个对话回合均由多名标注者交叉评审，并通过比较原始信息与替代方案的优劣提升标注一致性，最终形成大规模且标注质量较高的教育对话数据集。

使用方法

研究者可利用该数据集深入探究教育对话中语言特征与学习参与度的关联，或开发自动预测有趣度的计算模型。数据字段涵盖多标注者评分、对比评价及原始文本内容，支持回归分析、分类任务或序列建模。经微调的中等规模语言模型已展现出优于大型通用模型的表现，证明该数据集在专业化教育自然语言处理任务中具有重要应用价值。

背景与挑战

背景概述

在第二语言习得研究领域，学习者的参与度和动机被视为关键影响因素，然而教育对话中如何维持兴趣始终是教学实践的难点。IntrEx数据集由Xingwei Tan等研究者于2024年基于教师-学生聊天室语料库(TSCC)构建，首次实现了大规模教育对话的趣味性与预期趣味性标注。该数据集通过引入序列级注释机制，突破了传统单轮对话分析的局限，能够捕捉跨轮次对话中兴趣演变的动态特征，为教育心理语言学提供了重要的研究基础。

当前挑战

该数据集致力于解决教育对话参与度建模的核心难题，即如何量化动态交互中的兴趣激发机制。构建过程中面临多重挑战：首先需要设计可靠的标注框架来捕捉主观性极强的趣味性维度，研究团队采用基于人类反馈的强化学习比较标注法，动员百余位二语学习者参与标注以提升一致性；其次需处理教育对话特有的语言复杂性，包括语言可理解性、具体性及认知吸收度等多维特征的协同分析；最后还需验证语言模型对人工标注的预测能力，研究发现精细调校的中等规模模型反而优于大型通用模型，凸显了专业数据集对教育场景建模的特殊价值。

常用场景

经典使用场景

在二语习得研究领域，IntrEx-turn数据集为分析教育对话中的兴趣动态提供了关键资源。该数据集通过标注师生互动中每个话轮的有趣性和预期有趣性，使研究者能够深入探究对话过程中兴趣的生成与演变机制。其经典应用场景包括构建计算模型来预测教学对话的吸引力，以及识别那些能够显著提升学习者参与度的语言学特征，如具体性、可理解性和可读性等因素的作用。

解决学术问题

IntrEx-turn数据集致力于解决教育心理学和计算语言学中的一个核心问题：如何量化并提升教学对话中的学习者参与度。它通过大规模人工标注打破了以往研究局限于文本有趣性的局限，首次实现了对话序列层面的兴趣标注。该数据集为理解认知因素与 engagement 的关联提供了实证基础，显著推进了教育对话系统的优化研究，对构建自适应学习环境具有重要理论意义。

实际应用

该数据集的实际应用价值主要体现在智能教育系统的开发中。基于IntrEx-turn训练的预测模型可集成在线教育平台，实时评估教学对话的质量并生成更具吸引力的互动内容。这些系统能够为教师提供即时反馈，优化教学策略；同时也能驱动对话式AI助手的改进，使其更好地维持学习者兴趣，提升远程教育的效果和个性化水平。

数据集最近研究