five

rose-e-wang/sight

收藏
Hugging Face2024-07-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rose-e-wang/sight
下载链接
链接失效反馈
官方服务:
资源简介:
SIGHT是一个大规模的数据集,包含288个数学讲座的转录文本和15,784条学生评论,这些数据来自麻省理工学院开放课程(MIT OCW)的YouTube频道。该数据集的目的是通过分析学生的反馈,帮助教师改进教学方法。数据集还包括使用大型语言模型(LLMs)进行自动化注释的方法,并讨论了其有效性。

SIGHT是一个大规模的数据集,包含288个数学讲座的转录文本和15,784条学生评论,这些数据来自麻省理工学院开放课程(MIT OCW)的YouTube频道。该数据集的目的是通过分析学生的反馈,帮助教师改进教学方法。数据集还包括使用大型语言模型(LLMs)进行自动化注释的方法,并讨论了其有效性。
提供机构:
rose-e-wang
原始信息汇总

SIGHT: A Large Annotated Dataset on Student Insights Gathered from Higher Education Transcripts

基本信息

  • 许可证: cc
  • 任务类别: 文本分类
  • 语言: 英语
  • 标签: 数学

数据集描述

  • 名称: SIGHT
  • 来源: 麻省理工学院开放课程(MIT OCW)YouTube 频道
  • 内容: 包含 288 个数学讲座的转录文本和 15,784 条评论
  • 作者: Rose E. Wang, Pawan Wirawarn, Noah Goodman, Dorottya Demszky
  • 发表会议: 第十八届教育应用创新使用NLP研讨会

数据集结构

  • 数据目录:
    • annotations: 样本(人工)和完整 SIGHT 注释
    • comments: 每视频评论
    • metadata: 每视频元数据,如播放列表ID或视频名称
    • transcripts: 每视频转录文本,使用 Whisper Large V2 转录
  • 提示目录: prompts
  • 结果目录: results
  • 脚本目录: scripts
  • 依赖文件: requirements.txt
  • 分析脚本: run_analysis.sh

安装指南

  • 环境设置: bash conda create -n sight python=3 conda activate sight pip install -r requirements.txt

实验运行

  • 运行分析: 执行 source run_analysis.sh 以复现论文中的所有结果。
  • 结果保存: 图表(如 IRR 比较图)保存为 PDF 文件,数字(如样本数据信息或 IRR 值)保存为 txt 文件。

注释说明

  • 自动化注释: 在具有高评分(IRR)的类别上进行缩放。
  • 注释质量: 自动化注释可能不完全无误,建议作为起点并进行额外的人工验证。
  • 贡献: 欢迎改进注释质量的贡献,可通过提交 pull request 进行。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作