five

IntrEx

收藏
arXiv2025-09-08 更新2025-09-10 收录
下载链接:
https://huggingface.co/collections/XingweiT/intrex-68a8f2c97688157066860ae2
下载链接
链接失效反馈
官方服务:
资源简介:
IntrEx数据集是首个为教育对话中的有趣性和预期有趣性进行标注的大型数据集。它基于教师-学生聊天室语料库(TSCC V2)构建,包含260个一对一英语学习课程的对话历史,每个课程约持续一小时。数据集通过超过100名二语学习者的参与,引入了序列级别的标注,从而能够研究对话中兴趣的演变。IntrEx通过比较式的评分方法进行严格的标注,旨在提高标注的一致性。研究结果表明,在有趣性评分上微调的小型语言模型(LLM)能够超越GPT-4等大型模型,显示出专门数据集在教育环境中建模参与度的潜力。IntrEx数据集旨在解决教育对话中如何通过语言特性提升参与度的问题,为二语学习对话模型的改进提供了重要的研究资源。

The IntrEx dataset is the first large-scale annotated dataset dedicated to labeling the funniness and perceived funniness of educational conversations. It is constructed based on the Teacher-Student Chatroom Corpus (TSCC V2), and contains 260 conversation histories from one-on-one English learning sessions, each lasting approximately one hour. With the participation of over 100 second language learners, the dataset introduces sequence-level annotations, allowing for the study of the evolution of interest in conversations. IntrEx adopts a comparative scoring approach for rigorous annotation, with the goal of improving annotation consistency. Research findings show that small language models (LLMs) fine-tuned on funniness scoring tasks can outperform larger models such as GPT-4, demonstrating the potential of specialized datasets for modeling engagement in educational contexts. The IntrEx dataset aims to address the issue of how to enhance engagement via linguistic features in educational conversations, providing a valuable research resource for advancing dialogue models for second language learning.
提供机构:
华威大学计算机科学系,谢菲尔德大学计算机科学学院,华威大学心理学系
创建时间:
2025-09-08
搜集汇总
数据集介绍
main_image_url
构建方式
IntrEx数据集基于教师-学生聊天室语料库(TSCC)构建,通过严谨的注释流程引入序列级标注,以捕捉教育对话中兴趣度的动态演变。采用基于比较的评级方法,借鉴人类反馈强化学习(RLHF)策略,要求注释者将原始对话与自动生成的乏味版本进行对比,从而提升标注一致性与可靠性。超过100名第二语言学习者参与标注过程,每位对话片段由三位独立注释者评分,确保数据的多样性与客观性。
特点
该数据集的核心特点在于同时标注了即时兴趣度与预期兴趣度,分别反映学习者在对话中的实际参与感和对后续内容的期待水平。其标注粒度涵盖回合级与序列级,能够有效捕捉教育对话中因话题转换与话语结构变化而引起的兴趣波动。数据集还提供了丰富的元数据,包括注释者的人口统计信息和语言 proficiency 水平,支持多维度分析。此外,通过 GPT-4o 生成的对比样本进一步增强了标注的对比性与一致性。
使用方法
IntrEx数据集主要用于训练和评估语言模型在教育对话中的参与度预测能力。研究者可将其作为多类分类任务的训练集,通过微调小型语言模型(如Llama3-8B或Mistral-7B)来预测人类兴趣评分。该数据集支持对话历史建模,输入格式包含目标消息的上下文界定标签。此外,它可用于分析语言特征(如具体性、可理解性与承接性)对兴趣度的影响,通过线性混合效应回归等统计方法揭示教育对话中的参与机制。
背景与挑战
背景概述
IntrEx数据集由华威大学和谢菲尔德大学的研究团队于2025年创建,旨在解决第二语言教育对话中学习参与度的量化难题。该数据集基于教师-学生聊天室语料库(TSCC),首次引入了序列级别的兴趣度与预期兴趣度标注,通过超过100名第二语言学习者的精细标注,捕捉对话过程中动态变化的参与模式。其核心研究聚焦于识别驱动教育对话吸引力的语言特征,为构建更具交互性的AI辅导系统提供数据基础,对教育计算语言学和人机交互领域产生深远影响。
当前挑战
该数据集解决的领域挑战在于教育对话中参与度的动态性与主观性难以量化,传统文本评估方法无法捕捉多轮交互中的兴趣演化。构建过程中的挑战包括:标注一致性受个体兴趣差异影响,需通过基于强化学习人类反馈的比较标注策略提升协议度;序列划分需依赖教学内容的结构性标签以避免标注粒度失衡;此外,招募非英语母语标注者时需严格控制语言 proficiency 匹配,以规避高阶学习者对教学内容的认知偏差。
常用场景
经典使用场景
在第二语言教育对话分析领域,IntrEx数据集为研究师生互动中的兴趣动态提供了关键资源。该数据集通过序列级标注捕捉对话中兴趣度的演变轨迹,使得研究者能够深入探究教育对话中语言特征与学习者参与度之间的关联,为构建更精准的教育对话分析模型奠定基础。
实际应用
在实际应用中,IntrEx数据集被用于训练面向第二语言教育的对话生成系统,帮助AI教师优化对话策略以提升学习者参与度。例如,通过分析具体性、可理解性等语言特征与兴趣度的关联,教育科技公司可开发自适应对话系统,根据学习者反馈动态调整教学内容复杂度。
衍生相关工作
基于IntrEx数据集衍生的经典工作包括小型语言模型的兴趣度预测框架,如微调后的Llama3-8B模型在预测教育对话兴趣度任务上超越了GPT-4o等大型模型。这些研究推动了专门化奖励模型的发展,并为教育对话生成系统的偏好优化提供了新的技术路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作