five

IntrEx

收藏
github2025-09-16 更新2025-09-22 收录
下载链接:
https://github.com/Xingwei-Tan/IntrEx
下载链接
链接失效反馈
官方服务:
资源简介:
IntrEx是第一个大规模标注师生互动中有趣性和预期有趣性的数据集,用于教育对话参与建模

IntrEx is the first large-scale annotated dataset focusing on funniness and anticipated funniness in teacher-student interactions, designed for modeling educational dialogue engagement.
创建时间:
2025-08-23
原始信息汇总

IntrEx 数据集概述

数据集名称

IntrEx: A Dataset for Modeling Engagement in Educational Conversations

核心描述

首个大规模标注教师-学生互动中有趣性和预期有趣性的数据集。

收录状态

已入选 EMNLP 2025。

数据内容

  • 标注者元数据:包含标注者 ID 和人口统计信息。
  • 序列级标注者 ID:记录每个项目对应的第一、第二、第三标注者。
  • 回合级标注者 ID:记录每个项目对应的第一、第二、第三标注者。

数据访问

  • 标注数据存储于 Hugging Face:https://huggingface.co/collections/XingweiT/intrex-68a8f2c97688157066860ae2
  • 相关论文发布于 Hugging Face:https://huggingface.co/papers/2509.06652

官方仓库

https://github.com/Xingwei-Tan/IntrEx

搜集汇总
数据集介绍
main_image_url
构建方式
在构建IntrEx数据集的过程中,研究团队聚焦于教育对话场景,通过系统收集师生互动文本,并采用多轮标注策略确保数据质量。标注过程由经过严格筛选的标注员执行,每位标注员依据统一指南对对话的趣味性和预期趣味性进行独立评估,最终通过聚合多个标注结果形成高质量标注数据。
特点
IntrEx数据集作为首个大规模标注教育对话趣味性与预期趣味性的资源,其独特之处在于覆盖广泛的教育互动情境,并提供多维度标注信息,包括对话序列层级和回合层级的详细注释。该数据集还附带标注员人口统计信息,支持深入研究个体差异对趣味性感知的影响,为教育计算研究提供丰富的数据基础。
使用方法
研究人员可通过Hugging Face平台访问IntrEx数据集,利用其提供的元数据和标注信息开展教育对话分析。数据集支持多种计算任务,如趣味性预测模型训练、教育对话生成系统评估等。使用时应结合提供的标注员ID和人口统计数据,确保分析过程的透明性和可重复性。
背景与挑战
背景概述
教育对话分析领域长期关注师生互动质量评估,2025年由EMNLP会议收录的IntrEx数据集应运而生。该数据集由人机交互与教育技术交叉领域的研究团队构建,聚焦于对话有趣性与预期有趣性的多维度标注。作为首个大规模标注师生互动兴趣度的语料库,IntrEx通过捕获教学对话中的情感认知动态,为教育人工智能系统提供了关键评估基准,显著推进了自适应学习系统与智能辅导模型的发展。
当前挑战
该数据集核心挑战在于定义并量化教学对话中主观性极强的'有趣性'维度,需解决多标注者一致性、文化背景差异带来的标注偏差问题。构建过程中面临三重困难:一是设计能同时捕获即时反应与长期预期兴趣的双重标注框架;二是确保教育场景对话的隐私伦理合规性;三是平衡专家标注与众包标注的质量控制机制,这要求设计精细的标注协议与跨学科验证流程。
常用场景
经典使用场景
在教育对话分析领域,IntrEx数据集为研究者提供了量化师生互动中兴趣度的标准基准。该数据集通过标注教师语句的实际趣味性和预期趣味性,支持机器学习模型识别教学对话中能够激发学生参与度的关键语言特征,常用于构建教育对话质量评估的预测模型。
解决学术问题
IntrEx有效解决了教育技术领域长期缺乏细粒度兴趣度标注数据的难题,为研究教学对话的动态交互机制提供了数据支撑。通过区分实际与预期兴趣度,该数据集帮助学者突破传统参与度研究的单一维度,推动了对教学策略有效性量化评估的理论创新。
衍生相关工作
基于IntrEx的标注范式,后续研究提出了多模态教学兴趣度预测框架EDU-InterestNet,并衍生出结合认知负荷理论的跨领域标注标准。相关成果推动了教育对话生成模型TeachGPT的开发,为构建下一代智能教学助手提供了理论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作