five

EduRABSA Dataset

收藏
github2025-09-01 更新2025-09-03 收录
下载链接:
https://github.com/yhua219/edurabsa_dataset_and_annotation_tool
下载链接
链接失效反馈
官方服务:
资源简介:
EduRABSA是一个手动标注的学生评论文本数据集,用于多个基于方面的情感分析任务,包括方面-意见-情感四元组提取、方面-情感三元组提取、方面情感分类等。数据集包含6500条2020-2023年发布的英语高等教育学生评论文本分层样本,涵盖课程评论(3000条)、教师评论(3000条)和大学评论(500条)

EduRABSA is a manually annotated student review dataset designed for multiple aspect-based sentiment analysis tasks, including aspect-opinion-sentiment quadruple extraction, aspect-sentiment triple extraction, and aspect-based sentiment classification, among others. The dataset consists of 6,500 stratified samples of English higher education student review texts released between 2020 and 2023, covering 3,000 course reviews, 3,000 instructor reviews, and 500 university reviews.
创建时间:
2025-08-23
原始信息汇总

EduRABSA 数据集概述

数据集基本信息

  • 名称:EduRABSA(Education Review ABSA)
  • 类型:教育评论数据集
  • 语言:英语
  • 规模:6,500条评论
  • 许可协议:Creative Commons Attribution 4.0 International License

数据来源与构成

  • 课程评论:3,000条,来自滑铁卢大学课程评论(2022年10月发布,CC0许可)
  • 教师评论:3,000条,来自RateMyProfessor.com教授教学评估大数据集(2020年3月发布,CC BY 4.0许可)
  • 大学评论:500条,来自埃克塞特大学评论(2023年6月发布,CC0许可)

标注任务类型

支持以下多方面情感分析任务:

  • 方面-意见-类别-情感四元组提取(ASQE)
  • 方面-意见-情感三元组提取(ASTE)
  • 方面情感分类(ASC)
  • 方面类别检测(ACD)/方面-意见分类(AOC)
  • 方面-意见对提取(AOPE)
  • 方面提取(AE)
  • 意见提取(OE)

标注规范

  • 方面和意见术语:提取为连续的原文词汇
  • 类别标签:采用"实体-属性"两级结构(基于SemEval 2015和2016)
  • 情感类别:四元组级别和评论级别均采用"积极"、"中性"、"消极"三类
  • 标注特点:捕获显式和隐式的方面与意见术语,以及同一意见术语上的多方面、多情感关系

数据集文件

完整数据集

  • 开发测试集:DEV_TEST_Merged_ASQE_N2500.json(2,500条)
  • 训练验证集:Train_validation_Merged_ASQE_N4000.json(4,000条)
  • 文件位置:EduRABSA_Dataset/2_annotated_dataset_files/Annotation_raw_output/

任务特定格式

  • PyABSA数据集格式文件:EduRABSA_Dataset/2_annotated_dataset_files/pyabsa_dataset_format/
  • 包含.jsonl和.txt格式文件

数据获取方式

  • 主下载地址:https://doi.org/10.5281/zenodo.16935017
  • Huggingface数据集:https://huggingface.co/collections/yhua219/edurabsa-dataset-68b59bad56a9e1384de7faf2

相关工具

  • 标注工具:ASQE-DPT(MIT许可)
  • 工具下载:https://doi.org/10.5281/zenodo.16935017
  • 在线版本:https://yhua219.github.io/ASQE_DPT/
  • 本地版本:ASQE-DPT/ASQE_DPT_1.0.html

实验数据

  • 实验脚本和结果:experiment_data_and_scripts/Experiment_README.md
  • 包含ASC和ASQE任务的训练、开发、测试集划分
搜集汇总
数据集介绍
main_image_url
构建方式
教育领域的情感分析研究亟需高质量标注数据支撑,EduRABSA数据集的构建采用了严格的分层抽样策略。从三个公开教育评论源中选取6500条英文评论,依据文本长度和评分进行分层随机抽样,确保样本代表性。通过自主研发的ASQE-DPT标注工具,由专业标注人员对每条评论进行细粒度四元组标注,涵盖方面词、观点词、类别和情感极性,同时标注整体情感标签,构建过程兼顾了数据质量与标注一致性。
使用方法
研究者可通过Zenodo或Huggingface平台获取数据集,压缩包包含原始标注文件及PyABSA格式的转换版本。数据集已按任务类型预处理为标准格式,可直接用于模型训练与评估。对于自定义实验,可利用提供的格式转换脚本调整数据结构。标注文件支持导入ASQE-DPT工具进行可视化查验或修改,确保标注透明性和可复现性。实验脚本包含标准数据划分方案,支持跨任务性能对比研究。
背景与挑战
背景概述
教育领域的情感分析研究近年来备受关注,EduRABSA数据集由Yan Cathy Hua等学者于2025年创建,专注于教育评论的细粒度情感分析。该数据集包含6,500条经过分层采样的高等教育学生评论,涵盖课程、教师和大学三个维度,采用人工标注的方面-观点-类别-情感四元组结构。其标注体系继承SemEval竞赛的实体-属性双层分类框架,支持七种ABSAs子任务,为教育质量评估提供了重要的数据基础。
当前挑战
教育领域ABSAs面临语义隐含性和领域特异性双重挑战:需识别如“课程节奏适中”中隐含的“工作量”方面,同时处理教育场景特有的术语体系。构建过程中,跨平台评论的异构性要求设计统一采样策略,而四元组标注需要协调显隐性表达与多情感映射关系,标注一致性维护成为关键难点。
常用场景
经典使用场景
在教育技术领域,EduRABSA数据集为细粒度情感分析任务提供了重要支撑。该数据集通过标注课程评价、教师评价和大学评价中的方面-观点-类别-情感四元组,能够有效支持多任务学习框架下的模型训练与评估。研究者可利用其分层采样的6500条英文教育评论,开展跨领域迁移学习实验,探索教育场景下情感表达的独特语言模式。
解决学术问题
该数据集解决了教育文本挖掘中细粒度情感分析的标注稀缺问题。通过引入实体-属性两级分类体系和显隐式观点标注,为研究多方面多情感共现现象提供了数据基础。其标准化标注范式显著提升了教育领域情感计算模型的可解释性,推动了跨任务联合学习方法的创新,对教育质量评估体系的智能化建设具有重要理论价值。
实际应用
在实际应用中,该数据集支持构建智能教育评价分析系统。高等教育机构可基于其标注体系开发课程质量监测工具,自动识别学生对教学内容、教师表现和校园设施的具体评价倾向。在线教育平台能利用其多维度情感分析能力优化推荐算法,为学习者匹配更符合其偏好的课程资源,提升教育服务的个性化水平。
数据集最近研究
最新研究方向
教育领域的情感分析研究正日益关注细粒度语义理解,EduRABSA数据集作为首个面向教育评论的方面级情感分析多任务数据集,推动了教育质量评估与自然语言处理的交叉研究。该数据集支持七种ABSA子任务,涵盖课程、教师与大学三个维度的实体-属性标注体系,其标注工具ASQE-DPT创新性地实现了四元组抽取与隐式情感识别。当前研究热点集中于跨领域迁移学习、多任务联合建模以及教育政策智能评估应用,该数据集的发布为教育个性化推荐系统和教学质量监控提供了重要的数据基础与算法验证平台。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作