rose-e-wang/sight
收藏Hugging Face2024-07-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rose-e-wang/sight
下载链接
链接失效反馈官方服务:
资源简介:
SIGHT是一个大规模的数据集,包含288个数学讲座的转录文本和15,784条学生评论,这些数据来自麻省理工学院开放课程(MIT OCW)的YouTube频道。该数据集的目的是通过分析学生的反馈,帮助教师改进教学方法。数据集还包括使用大型语言模型(LLMs)进行自动化注释的方法,并讨论了其有效性。
SIGHT是一个大规模的数据集,包含288个数学讲座的转录文本和15,784条学生评论,这些数据来自麻省理工学院开放课程(MIT OCW)的YouTube频道。该数据集的目的是通过分析学生的反馈,帮助教师改进教学方法。数据集还包括使用大型语言模型(LLMs)进行自动化注释的方法,并讨论了其有效性。
提供机构:
rose-e-wang
原始信息汇总
SIGHT: A Large Annotated Dataset on Student Insights Gathered from Higher Education Transcripts
基本信息
- 许可证: cc
- 任务类别: 文本分类
- 语言: 英语
- 标签: 数学
数据集描述
- 名称: SIGHT
- 来源: 麻省理工学院开放课程(MIT OCW)YouTube 频道
- 内容: 包含 288 个数学讲座的转录文本和 15,784 条评论
- 作者: Rose E. Wang, Pawan Wirawarn, Noah Goodman, Dorottya Demszky
- 发表会议: 第十八届教育应用创新使用NLP研讨会
数据集结构
- 数据目录:
annotations: 样本(人工)和完整 SIGHT 注释comments: 每视频评论metadata: 每视频元数据,如播放列表ID或视频名称transcripts: 每视频转录文本,使用 Whisper Large V2 转录
- 提示目录:
prompts - 结果目录:
results - 脚本目录:
scripts - 依赖文件:
requirements.txt - 分析脚本:
run_analysis.sh
安装指南
- 环境设置: bash conda create -n sight python=3 conda activate sight pip install -r requirements.txt
实验运行
- 运行分析: 执行
source run_analysis.sh以复现论文中的所有结果。 - 结果保存: 图表(如 IRR 比较图)保存为 PDF 文件,数字(如样本数据信息或 IRR 值)保存为 txt 文件。
注释说明
- 自动化注释: 在具有高评分(IRR)的类别上进行缩放。
- 注释质量: 自动化注释可能不完全无误,建议作为起点并进行额外的人工验证。
- 贡献: 欢迎改进注释质量的贡献,可通过提交 pull request 进行。



