PEEK

Name: PEEK
Creator: 伦敦大学学院人工智能中心
Published: 2021-09-14 02:32:11
License: 暂无描述

arXiv2021-09-14 更新2024-06-21 收录

下载链接：

https://github.com/sahanbull/PEEK-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

PEEK数据集是由伦敦大学学院人工智能中心创建的，包含超过20,000名非正式学习者在观看超过10,200个独特的教育视频讲座时的观看时间交互数据。该数据集通过将教育视频讲座与相关维基百科概念关联，提供了一个直观的分类体系。数据集的创建过程涉及视频的转录、翻译和片段化，以及通过Wikification技术将视频片段与维基百科概念关联。PEEK数据集的应用领域主要集中在教育推荐系统和个性化电子学习平台，旨在通过细粒度的学习者参与信号和丰富的内容表示，推动构建强大的个性化算法，从而革新教育和信息推荐系统。

The PEEK dataset was created by the Centre for Artificial Intelligence at University College London. It encompasses viewing-time interaction data from more than 20,000 informal learners who watched over 10,200 unique educational video lectures. The dataset offers an intuitive classification framework by aligning educational video lectures with relevant Wikipedia concepts. Its creation workflow involves video transcription, translation, and segmentation, as well as linking video segments to Wikipedia concepts via Wikification technology. The primary application domains of the PEEK dataset include educational recommendation systems and personalized e-learning platforms, with the objective of advancing the development of robust personalized algorithms through fine-grained learner engagement signals and rich content representations, ultimately revolutionizing educational and information recommendation systems.

提供机构：

伦敦大学学院人工智能中心

创建时间：

2021-09-03

搜集汇总

数据集介绍

构建方式

在开放教育资源日益普及的背景下，PEEK数据集通过整合视频讲座资源与学习者交互日志，构建了一个面向个性化教育推荐的大规模数据集。其构建过程始于从VideoLectures.Net平台提取视频元数据与用户观看记录，随后利用TransLectures项目对视频进行转录与翻译，确保内容语言统一为英文。每个视频被进一步分割为约5分钟的片段，以捕捉更细粒度的学习互动。通过Wikification技术，将每个视频片段的转录文本与维基百科概念进行实体链接，自动标注出覆盖该片段的知识组件。最终，通过计算学习者的标准化观看时间并离散化为二元参与标签，形成了包含超过20万次交互事件的结构化数据集。

使用方法

PEEK数据集主要用于教育推荐系统领域的研究，特别是学习者参与度预测与个性化资源推荐。研究人员可利用数据集中的训练与测试分割文件，构建并评估各类推荐模型，如基于内容的过滤、协同过滤以及知识追踪等算法。数据集提供的知识组件覆盖度与时间戳信息，支持时序建模与状态感知学习者的动态分析。此外，通过链接维基百科概念，研究者可进一步利用外部知识库增强内容表征，探索知识结构分析或学习路径挖掘等衍生任务。数据集的公开可用性为推进隐式反馈驱动的教育推荐研究提供了重要基础。

背景与挑战

背景概述

随着大规模开放在线课程和开放教育资源的兴起，个性化教育推荐系统成为提升终身学习成效的关键技术。然而，该领域长期面临公开数据稀缺的瓶颈，制约了算法的创新与验证。在此背景下，伦敦大学学院人工智能中心等机构的研究团队于2021年发布了PEEK数据集，旨在通过记录学习者在真实环境中与教育视频的互动行为，为个性化学习分析提供大规模、细粒度的研究基础。该数据集的核心研究问题聚焦于如何利用隐式反馈（如观看时长）预测学习者的参与度，从而推动可解释、可扩展的教育推荐算法发展，对在线教育、知识追踪及信息检索等领域产生了深远影响。

当前挑战

PEEK数据集致力于解决教育视频个性化推荐中的核心挑战：如何仅通过隐式的观看行为，准确推断学习者的知识状态与兴趣偏好，进而预测其未来参与度。这一任务区别于依赖显式测试反馈的传统知识追踪，要求模型在数据稀疏和噪声干扰下实现稳健建模。在构建过程中，研究团队面临多重技术难题：首先，需将视频转录并分割为语义连贯的片段，同时通过维基百科实体链接实现知识组件的自动化、可解释标注；其次，必须在保护用户与讲者匿名性的前提下，对时间戳进行脱敏处理并确保k-匿名性；此外，还需设计合理的参与度标签离散化规则，以平衡教育场景中知识获取与观看行为之间的复杂关系。

常用场景

经典使用场景

在个性化教育推荐系统研究中，PEEK数据集为建模学习者与教育视频片段的交互行为提供了经典实验平台。该数据集通过捕捉超过两万名学习者在真实环境中观看一万余个视频片段的观看时长数据，为研究者提供了分析细粒度学习参与度的宝贵资源。其核心应用场景在于构建和评估能够预测学习者未来参与行为的算法模型，特别是那些基于知识追踪和内容相似度的推荐模型，旨在模拟学习者在开放式教育资源平台中的动态学习路径。

解决学术问题

PEEK数据集有效应对了教育技术领域长期存在的公开数据稀缺问题，为基于隐式反馈的个性化学习研究提供了关键基础设施。它使得研究者能够超越传统依赖显式测试反馈的知识追踪方法，转而利用观看时长等自然交互信号来推断学习者的知识状态与兴趣偏好。该数据集通过将视频内容与维基百科概念关联，提供了可解释的内容表征，从而支持开发透明且可扩展的个性化推荐算法，推动了从封闭的智能辅导系统向开放、终身学习场景下教育推荐系统的范式转变。

实际应用

在实际应用层面，PEEK数据集支撑了新一代在线教育平台的核心功能开发。基于该数据集训练的模型能够为大规模开放在线课程和开放式教育资源库提供个性化视频片段推荐，帮助学习者高效定位符合其当前知识水平和兴趣的教学内容。此外，其基于维基百科概念的知识组件表征，使得系统能够生成可解释的推荐理由，辅助学习者进行元认知和自我调节，从而提升在线学习的效率和持续性，为构建适应终身学习需求的智能教育环境提供了技术基础。

数据集最近研究