IntrEx-sequence

Hugging Face2025-08-23 更新2025-08-24 收录

下载链接：

https://huggingface.co/datasets/XingweiT/IntrEx-sequence

下载链接

链接失效反馈

官方服务：

资源简介：

IntrEx是一个专门为研究教育对话中兴趣和预期兴趣而构建的大型数据集，它通过序列级别的注释来捕捉兴趣在扩展对话中的变化。

创建时间：

2025-08-23

原始信息汇总

数据集概述

基本信息

数据集名称: IntrEx: A Dataset for Modeling Engagement in Educational Conversations (sequence-level)
许可证: CC BY-NC 4.0
语言: 英语
标签: 教育、心理语言学
数据规模: 1K到10K之间

数据集描述

IntrEx是第一个大规模标注教育对话中趣味性和预期趣味性的数据集，专注于教师-学生互动场景。该数据集基于教师-学生聊天室语料库（TSCC）构建，通过引入序列级标注扩展了先前工作，能够研究兴趣在扩展对话中的演变过程。

标注信息

数据集采用基于比较的评分方法（受人类反馈强化学习RLHF启发），由100多名第二语言学习者参与标注过程，以提高标注一致性。

研究内容

分析语言和认知因素（如具体性、可理解性、可读性和接受度）对教育对话参与度的影响，并探究大语言模型（LLMs）预测人类趣味性判断的能力。

数据字段

字段名称	描述
project_id	标注工作单元ID，代表一批参与者标注一组对话
page_id	标注页面编号
doccano_id	标注工具分配的ID
conversation_id	TSCC V2数据集中的对话ID
p0_int	第一位标注者的趣味性评分
p0_exp_int	第一位标注者的预期趣味性评分
p0_comparison	原始消息与替代方案的比较评分（0表示替代方案更差，1表示更好）
p1_int	第二位标注者的趣味性评分
p1_exp_int	第二位标注者的预期趣味性评分
p1_comparison	原始消息与替代方案的比较评分（0表示替代方案更差，1表示更好）
p2_int	第三位标注者的趣味性评分
p2_exp_int	第三位标注者的预期趣味性评分
p2_comparison	原始消息与替代方案的比较评分（0表示替代方案更差，1表示更好）
text	被评分的序列内容
raw_text	标注者看到的页面原始文本内容

研究成果

研究发现，经过精心微调的中等规模LLMs（7B/8B参数）在趣味性评分预测任务上优于GPT-4o等大型专有模型，证明了专用数据集在教育场景参与度建模方面的潜力。

搜集汇总

数据集介绍

构建方式

IntrEx-sequence数据集基于教师-学生聊天室语料库（TSCC）构建，通过严谨的标注流程扩展了序列级注释。研究团队邀请了超过100名第二语言学习者参与标注工作，采用基于比较的评分方法，该方法受人类反馈强化学习（RLHF）启发，旨在提升标注者间的一致性。标注过程中，参与者对教育对话中的趣味性和预期趣味性进行多维度评估，确保了数据的高质量和可靠性。

特点

该数据集作为首个大规模标注教育对话趣味性和预期趣味性的资源，其突出特点在于涵盖了序列级别的注释，能够捕捉兴趣在扩展对话中的动态演变。数据集融合了语言和认知因素的多维分析，如具体性、可理解性、可读性和吸收度，为研究教育互动中的参与度提供了丰富视角。其标注结果基于多名注释者的独立评分，增强了数据的鲁棒性和泛化能力。

使用方法

IntrEx-sequence数据集适用于建模教育对话中的参与度和趣味性预测，用户可通过加载其序列级注释进行自然语言处理任务的训练与评估。典型应用包括 fine-tuning 大型语言模型（如7B/8B参数模型），以预测人类趣味性判断，并对比更大规模专有模型的性能。研究人员还可分析语言特征对 engagement 的影响，推动教育心理语言学领域的实证研究。

背景与挑战

背景概述

教育心理语言学领域长期关注二语习得过程中的学习者参与度问题，传统研究多集中于文本材料的趣味性分析，而对对话场景中 engagement 的动态演化机制缺乏系统探索。2024年由英国卡迪夫大学Xingwei Tan等学者发布的IntrEx-sequence数据集，基于教师-学生聊天室语料库(TSCC)构建，首次实现了序列级教育对话的趣味性与预期趣味性标注，通过百余名二语学习者的对比标注范式，为探究认知因素与语言特征对学习动机的影响提供了重要实证基础。

当前挑战

该数据集致力于解决教育对话中 engagement 动态建模的核心难题，需捕捉多轮对话中兴趣度的非线性演化规律，其挑战在于如何量化认知因素（如具体性、可理解性）与语言特征的交互效应。构建过程中面临标注一致性问题，研究者采用基于人类反馈的强化学习对比评分机制，通过多轮迭代优化标注协议，同时需处理教育场景中语境依赖性强、主观评判差异大等复杂因素，最终实现超千条对话序列的高质量标注。

常用场景

经典使用场景

在第二语言教学研究领域，IntrEx-sequence数据集为分析师生对话中的兴趣动态变化提供了重要支持。该数据集通过序列级标注捕捉教育对话中兴趣度的演变轨迹，使研究者能够深入探究多轮交互中 engagement 的波动规律。其经典应用场景包括构建基于语言特征的兴趣度预测模型，以及验证认知语言学理论在教学对话中的实际表现。

实际应用

在实际教育场景中，该数据集支持智能教学系统的对话策略优化。通过分析高兴趣度对话序列的特征，教育科技开发者能够设计更具吸引力的交互方案。其应用价值体现在个性化学习路径规划、自适应对话系统开发以及教师专业发展培训等领域，为数字化教育提供了数据驱动的改进依据。

衍生相关工作

基于该数据集衍生的研究推动了教育计算领域的发展，催生了多项关于对话参与度建模的创新工作。这些研究探索了语言可理解性、具体性认知特征与学习兴趣的关联机制，并发展了基于7B/8B参数量的专用预测模型。相关成果为后续研究提供了可复现的基准框架，促进了教育人工智能技术的精细化发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集