five

SentiHood

收藏
arXiv2025-09-30 收录
下载链接:
https://github.com/uclnlp/jack/tree/master/data/sentihood
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由来自雅虎的包含英国伦敦地点名称的问答构建而成,共包含5215个句子。在这些句子中,有3862个句子包含单一目标,而1353个句子包含多个目标。此外,针对每个句子,为每个目标-方面对预测情感标签。规模上,该数据集包含5215个句子,其任务定位于面向目标的情感分析(Tabsa)。

This dataset is constructed from question-answering pairs involving place names in London, UK, sourced from Yahoo, comprising a total of 5215 sentences. Of these sentences, 3862 contain a single target, while 1353 contain multiple targets. Furthermore, sentiment labels are predicted for each target-aspect pair associated with every sentence. This dataset, consisting of 5215 sentences, is dedicated to Target-Based Sentiment Analysis (Tabsa).
提供机构:
UCL NLP
搜集汇总
数据集介绍
main_image_url
构建方式
在情感分析领域,针对城市社区进行细粒度意见挖掘的需求日益凸显。SentiHood数据集的构建过程体现了严谨的学术方法,其数据源自雅虎问答平台中关于伦敦社区的讨论内容。研究团队首先利用GeoNames地名数据库筛选出伦敦范围内的社区名称作为查询关键词,进而收集相关的问答对文本。随后,将文本分割为句子,并仅保留包含至少一个社区提及的句子用于标注。标注过程中,团队预先定义了一套涵盖居住、安全、价格、交通等11个方面的固定类别,并采用BRAT标注工具,由多名标注员经过多轮训练与讨论以达成较高的一致性标注标准,最终由一致性最高的标注员完成全部标注工作,确保了数据质量。
特点
SentiHood数据集在细粒度情感分析任务中展现出鲜明的特色。其核心在于突破了传统情感分析任务中单一实体或单一情感的假设,支持在同一文本单元中分析多个实体及其不同方面的情感极性。数据来源于开放的问答平台,文本风格自然多样,相较于基于专业评论平台的数据集,包含了更丰富的语言表达和更复杂的意见结构。数据集中句子按包含的实体提及数量分为单实体与双实体两类,便于研究模型在不同复杂度场景下的性能。此外,所有社区名称均被标准化为位置标记,既保护了隐私,又使任务聚焦于关系与情感推断而非实体识别。
使用方法
该数据集主要用于支持目标方面情感分析这一新兴任务的研究与评估。给定一个句子,任务目标是输出一组三元组,分别指示目标实体、方面及其对应的情感极性。研究人员可将数据集划分为训练集、验证集和测试集,用于开发和比较不同模型。论文中提供了基于逻辑回归和长短时记忆网络的基线方法,逻辑回归模型利用了掩码n-元语法和词性标注等特征,而LSTM模型则尝试通过句子编码来获取位置表示。评估时可采用F1分数、准确率及AUC等多种指标,并可分别考察模型在单实体句子和多实体句子上的表现,以全面衡量模型在方面识别、情感分类及目标实体关联上的综合能力。
背景与挑战
背景概述
在自然语言处理领域,情感分析作为一项关键技术,长期以来聚焦于文本整体情感极性的识别。然而,随着应用场景的深化,研究者逐渐意识到单一情感维度难以捕捉用户对实体不同属性的细致评价。为此,SentiHood数据集于2016年由伦敦大学学院、华威大学等机构的研究团队共同创建,旨在推动目标实体方面情感分析这一新兴任务的发展。该数据集首次从问答平台中提取关于城市社区的文本,突破了传统基于评论平台的数据局限,允许在同一文本单元中讨论多个实体的不同方面。其核心研究问题在于精确提取针对特定实体及其方面的情感极性,为城市社区评估、个性化推荐等应用提供了重要的数据基础,显著推动了细粒度意见挖掘领域的研究进程。
当前挑战
SentiHood数据集所针对的目标实体方面情感分析任务,主要挑战在于同时处理文本中多个实体的提及,并准确关联每个实体对应的方面及其情感极性。这要求模型具备强大的上下文理解与实体消歧能力,以区分不同实体的评价信息。在数据构建过程中,团队面临来自问答平台文本的复杂性与噪声挑战,包括非结构化表达、隐含语义以及实体指代模糊等问题。此外,预定义方面的标注工作也因文本中方面表达的多样性和主观性而变得困难,例如“居住”与“安静”等概念在标注时易产生歧义,需要通过多轮标注与讨论来达成一致,确保数据质量与一致性。
常用场景
经典使用场景
在情感分析领域,SentiHood数据集为定向方面情感分析任务提供了基准测试平台。该数据集源自雅虎问答平台,聚焦于城市社区讨论,其文本常涉及多个实体及其不同方面的情感表达。经典使用场景包括训练和评估模型以同时识别文本中提及的多个社区实体,并精确提取每个实体在特定方面(如安全、价格、交通)的情感极性。这推动了细粒度意见挖掘的发展,使研究者能够处理更复杂、自然的社交媒体文本,超越了传统基于单一实体或单一情感的假设。
解决学术问题
SentiHood数据集解决了情感分析中两个关键学术问题:一是传统方面情感分析仅假设单个实体,无法处理多实体共现的文本;二是定向情感分析仅关注整体情感,忽略了实体不同方面的细粒度差异。通过引入定向方面情感分析任务,该数据集支持同时提取多个实体的方面级情感,弥补了现有研究的局限性。其意义在于促进了更精细、更通用的情感建模方法,为处理真实世界复杂意见表达提供了理论基础,影响了后续多实体、多方面情感分析工作的方向。
衍生相关工作
SentiHood数据集衍生了一系列经典研究工作,推动了定向方面情感分析领域的进展。例如,后续研究基于该数据集的标注框架,开发了更先进的神经网络模型,如结合注意力机制或图神经网络的架构,以更好地捕捉实体与方面之间的依赖关系。同时,该数据集激发了跨领域应用探索,如将类似方法扩展到产品评论或新闻文本分析中。此外,围绕数据增强、多任务学习等方向的研究也借鉴了SentiHood的实验设置,进一步提升了细粒度情感分析的性能和泛化能力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作