Gold Standard Corpus (GSC)
收藏github2021-02-24 更新2024-05-31 收录
下载链接:
https://github.com/ixa-ehu/sustainable-transport-sentiment-corpus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含2000条来自交通领域的用户评论,手动标注为正面或负面,是首个公开可用的交通领域情感分析数据集。
This dataset comprises 2,000 user reviews from the transportation domain, manually annotated as either positive or negative, marking it as the first publicly available sentiment analysis dataset specifically for the transportation sector.
创建时间:
2021-02-23
原始信息汇总
数据集概述
数据集名称
Gold Standard Corpus (GSC) on Sentiment Analysis for Transport
数据集描述
该数据集包含2000条来自运输领域的用户评论,这些评论已被手动标注为正面或负面。这是首个公开可用的针对运输领域的情感分析数据集。
数据集内容
- 用户评论来源:运输领域的用户评论
- 评论数量:2000条
- 评论标注:正面或负面
- 数据集版本:手动标注,约25%的评级需手动修正
数据集子集
- 用户Gold标准语料库:GSC Gold标准语料库
- 二元分类实验(含噪声):数据集和笔记本
- 多类别分类实验(1-5星):数据集和笔记本
相关研究
- 研究论文:Ainhoa Serna, Aitor Soroa, Rodrigo Agerri. Applying Deep Learning Techniques for Sentiment Analysis to Assess Sustainable Transport. Sustainability. 2021; 13(4):2397. 链接
引用信息
- BibTeX引用:下载链接
搜集汇总
数据集介绍

构建方式
Gold Standard Corpus (GSC) 数据集的构建基于用户对交通运输的评论,这些评论经过人工标注,涵盖了多种可持续交通方式。数据集包含2000条来自交通领域的评论,每条评论被手动标注为正面或负面情感。值得注意的是,TripAdvisor评论的原始评分(1-5星)与真实情感极性并不完全一致,约25%的评分在人工审核后被修正。
特点
GSC数据集是首个公开的针对交通领域的情感分析语料库,具有独特的研究价值。其特点在于通过人工标注确保了情感分类的准确性,尤其是在处理模糊或矛盾的情感表达时表现出色。此外,数据集不仅支持二分类(正面/负面)任务,还提供了多分类(1-5星)实验数据,为研究提供了丰富的实验场景。
使用方法
GSC数据集的使用方法灵活多样,用户可通过GitHub获取原始语料及实验代码。数据集支持二分类和多分类任务,用户可利用提供的Notebook脚本进行模型训练与评估。此外,数据集与深度学习框架兼容,用户可结合transformers库进行迁移学习或微调实验,以探索更高效的情感分析模型。
背景与挑战
背景概述
Gold Standard Corpus (GSC) 是一个专注于可持续交通领域情感分析的数据集,由用户对交通方式的评论构成,并经过人工标注。该数据集由IXA研究小组于2021年创建,主要研究人员包括Ainhoa Serna、Aitor Soroa和Rodrigo Agerri。GSC包含了2000条交通领域的评论,每条评论被标注为正面或负面情感。这一数据集首次公开了交通领域的情感分析数据,填补了该领域的研究空白。研究团队发现,TripAdvisor的1-5星评分系统与真实情感极性并不完全一致,约25%的评分需要人工修正。GSC的发布为可持续交通领域的情感分析提供了重要的数据支持,推动了相关研究的深入发展。
当前挑战
GSC数据集在构建和应用过程中面临多重挑战。首先,情感分析本身具有主观性,尤其是在交通领域,用户评论的情感表达复杂多样,难以通过简单的评分系统准确捕捉。其次,数据集的构建依赖于人工标注,尽管标注过程严谨,但仍存在一定的主观偏差,尤其是在处理中性或模糊情感时。此外,TripAdvisor的原始评分系统与真实情感极性不一致,导致约25%的数据需要人工修正,增加了数据清洗的难度。最后,尽管GSC为交通领域的情感分析提供了基础数据,但其规模相对较小,可能限制了深度学习模型的泛化能力。这些挑战为后续研究提供了改进方向,例如引入更精细的情感分类标准或扩展数据集规模。
常用场景
经典使用场景
Gold Standard Corpus (GSC) 数据集在情感分析领域具有重要应用,特别是在可持续交通领域的情感分析研究中。该数据集通过手动标注的2000条用户评论,为研究者提供了一个高质量的情感分析基准。这些评论涵盖了多种交通方式,研究者可以利用该数据集进行情感分类模型的训练与评估,尤其是在处理用户对可持续交通方式的反馈时,GSC数据集能够提供精确的情感极性标注。
衍生相关工作
GSC 数据集的发布催生了一系列相关研究,特别是在深度学习和情感分析的交叉领域。例如,Ainhoa Serna等人利用该数据集开发了基于深度学习的情感分析模型,用于评估可持续交通的用户反馈。此外,该数据集还被用于多分类实验,探索如何将1-5星评分映射到更细粒度的情感类别中。这些研究不仅验证了GSC数据集的有效性,还为情感分析技术在交通领域的进一步应用奠定了基础。
数据集最近研究
最新研究方向
在可持续交通领域,情感分析正逐渐成为研究热点,Gold Standard Corpus (GSC) 数据集的推出为这一方向提供了重要的数据支持。该数据集通过手动标注的2000条交通领域用户评论,揭示了TripAdvisor评分与实际情感极性之间的不一致性,为情感分析模型的优化提供了新的视角。当前研究主要集中在基于GSC的深度学习模型训练,特别是二分类和多分类任务的应用。这些研究不仅提升了情感分析的准确性,还为可持续交通政策的制定提供了数据驱动的决策支持。此外,GSC的公开可用性促进了学术界和工业界的合作,推动了可持续交通领域的技术创新和实际应用。
以上内容由遇见数据集搜集并总结生成



