SIGHT

github2024-05-06 更新2024-05-31 收录

下载链接：

https://github.com/rosewang2008/sight

下载链接

链接失效反馈

官方服务：

资源简介：

SIGHT是一个大型注释数据集，收集自高等教育成绩单的学生洞察。该数据集包含288个数学讲座成绩单和15,784条从麻省理工学院开放课程软件(MIT OCW)YouTube频道收集的评论。

SIGHT is a large annotated dataset collected from student insights in higher education transcripts. The dataset comprises 288 mathematics lecture transcripts and 15,784 comments gathered from the MIT OpenCourseWare (MIT OCW) YouTube channel.

创建时间：

2023-06-14

原始信息汇总

数据集概述

数据集名称

SIGHT: A Large Annotated Dataset on Student Insights Gathered from Higher Education Transcripts

数据集内容

类型: 包含288个数学讲座的转录文本和15,784条评论。
来源: 收集自麻省理工学院开放课程(MIT OCW) YouTube频道。

数据集用途

用于研究学生反馈的分类和分析，特别是通过大型语言模型(LLMs)进行大规模的评论分类。

数据集结构

数据目录:
- annotations: 包含样本(人类)和完整的SIGHT注释。
- comments: 每个视频的评论。
- metadata: 每个视频的元数据，如播放列表ID或视频名称。
- transcripts: 每个视频的转录文本，使用Whisper Large V2转录。
其他目录:
- prompts: 用于注释的提示。
- results: 用于论文的结果图。
- scripts: 用于分析的Python脚本。
- requirements.txt: 运行代码所需的安装要求。
- run_analysis.sh: 完整的分析脚本。

数据集安装

使用conda创建环境并安装必要的库:

conda create -n sight python=3 conda activate sight pip install -r requirements.txt

实验复现

运行source run_analysis.sh可以复现论文中报告的所有结果。
结果图和数值数据存储在results/目录下。

注释说明

提供的自动化注释基于具有高内部评分者可靠性(IRR)分数的类别。
建议将这些注释作为起点，并通过额外的人类注释或其他方式进行验证。
欢迎对注释质量进行改进的贡献，可通过拉取请求提交更改。

搜集汇总

数据集介绍

构建方式

SIGHT数据集的构建基于麻省理工学院开放课程（MIT OCW）YouTube频道上的288个数学讲座转录文本及15,784条学生评论。通过定性分析方法，研究团队设计了一套用于分类反馈类型的评分标准，并采用大规模语言模型（LLMs）进行自动化分类，以降低大规模数据处理的复杂性和成本。

使用方法

使用SIGHT数据集时，用户可以通过运行提供的脚本进行数据分析和结果复现。数据集的结构清晰，包含了注释、评论、元数据和转录文本等多个部分。用户可以利用这些数据进行教育应用中的自然语言处理研究，特别是学生反馈的自动分类和分析。

背景与挑战

背景概述

SIGHT数据集由Rose E. Wang、Pawan Wirawarn、Noah Goodman和Dorottya Demszky于2023年创建，旨在解决高等教育中学生反馈的结构化和有效利用问题。该数据集包含了从麻省理工学院开放课程（MIT OCW）YouTube频道收集的288个数学讲座的转录文本和15,784条学生评论。通过定性分析方法，研究人员开发了一套用于分类反馈类型的评分标准，并利用大规模语言模型（LLMs）进行自动化分类，显著降低了处理成本。SIGHT数据集的推出为教育领域的自然语言处理应用提供了宝贵的资源，有助于教师更好地理解学生需求，优化教学方法。

当前挑战

SIGHT数据集面临的挑战主要集中在两个方面：一是如何从大量非结构化的学生反馈中提取有价值的见解，二是如何在保证分类准确性的同时，降低大规模自动化标注的成本。尽管研究人员通过定性分析和LLMs的结合取得了显著进展，但自动化标注的准确性仍需进一步验证，尤其是在不同类型的反馈中，模型与人类标注的一致性存在差异。此外，随着数据规模的扩大，如何确保标注的一致性和可靠性，以及如何处理潜在的标注误差，仍是未来研究的重要方向。

常用场景

经典使用场景

SIGHT数据集的经典使用场景主要集中在教育领域的自然语言处理任务中，特别是对学生反馈的分类与分析。通过该数据集，研究者能够利用大规模语言模型对学生评论进行自动化分类，从而帮助教育者更高效地获取和理解学生的反馈意见。这种应用不仅提升了反馈处理的效率，还为教育者提供了更为精准的教学改进建议。

解决学术问题

SIGHT数据集解决了教育领域中学生反馈难以结构化和大规模分析的学术问题。传统的学生反馈多为非结构化文本，难以直接用于教学改进。通过引入大规模语言模型进行自动化分类，SIGHT数据集显著降低了反馈分析的成本，并提高了分析的准确性。这一进展为教育研究提供了新的工具，有助于深入理解学生需求，优化教学策略。

实际应用

在实际应用中，SIGHT数据集可广泛用于高等教育机构的教学质量评估与改进。通过分析学生对课程内容的反馈，教育者可以及时调整教学方法，提升课程的吸引力和有效性。此外，该数据集还可用于开发智能教育系统，自动收集和分析学生反馈，为个性化教学提供数据支持。

数据集最近研究