five

Sports Feedback

收藏
arXiv2025-03-27 更新2025-03-28 收录
下载链接:
https://github.com/neveditsin/absa-sport
下载链接
链接失效反馈
官方服务:
资源简介:
本研究引入了一个创新的合成数据集——Sports Feedback,该数据集由圣玛丽大学的研究人员创建,包含了体育赛事志愿者的反馈信息。这个数据集特别之处在于其领域特定术语和大量的隐性方面,为Aspect-Based Sentiment Analysis任务带来了独特的挑战。该数据集共有480份文档,平均每份文档222个字符,其中75%由GPT-4生成,25%由Gemini 1.0 Ultra生成,以引入内容多样性。数据集的创建过程包括三个步骤:首先由LLM生成初步注释草稿,然后由志愿者从中选择更合适的草稿,最后由专家进行修订和完善。该数据集的35%内容含有隐性方面,为评估大型语言模型在提取隐性方面的能力提供了良好的测试平台。

This study introduces an innovative synthetic dataset named Sports Feedback, developed by researchers from Saint Mary's University, which contains feedback information collected from sports event volunteers. What distinguishes this dataset is its domain-specific terminology and a large number of implicit aspects, posing unique challenges for the Aspect-Based Sentiment Analysis (ABSA) task. The dataset consists of 480 documents, with an average length of 222 characters per document. Specifically, 75% of the content is generated by GPT-4 and the remaining 25% by Gemini 1.0 Ultra, to introduce content diversity. The dataset creation process includes three steps: first, generating preliminary annotation drafts via Large Language Models (LLMs), then having volunteers select more appropriate drafts from the generated outputs, and finally revising and polishing the selected drafts with the guidance of domain experts. Thirty-five percent of the content in this dataset contains implicit aspects, making it an excellent testbed for evaluating the ability of Large Language Models (LLMs) to extract implicit aspects.
提供机构:
圣玛丽大学,加拿大哈利法克斯
创建时间:
2025-03-27
原始信息汇总

数据集概述

数据集描述

该数据集(dataset.json)专为基于方面的情感分析设计,包含文本数据及针对文本中提及的各个方面的情感标注。

数据字段说明

text

  • 类型: string
  • 描述: 包含主要的文本内容,代表被分析或处理的文本数据。示例包括:
    • "Ive always believed in the importance of inclusive sporting events like NBMSG, but the execution this year was lacking. From the get-go, information was scarce, leaving many of us unsure of our roles and responsibilities."
    • "The food stalls, despite some limitations, did a fantastic job of offering a taste of home to many attendees. It was a nice touch that added to the overall welcoming atmosphere of the event."
    • "Volunteering gave me a sense of purpose. Its cool to be part of something thats all about celebrating diversity and bringing people together."

aspects

  • 类型: dict
  • 描述: 包含一个字典,其中每个键值对代表文本中的一个特定方面及其相关的情感极性。每个方面是文本中提到的特征或属性,值表示对该方面的情感(如Positive、Negative)。示例包括:
    • {"inclusivity": "Positive", "execution": "Negative", "information": "Negative"}
    • {"food stalls": "Positive", "atmosphere": "Positive"}
    • {"volunteering": "Positive", "sense of purpose": "Positive", "diversity": "Positive", "bringing people together": "Positive"}

is_train

  • 类型: boolean
  • 描述: 指示该行数据是否属于训练集或测试集。值为True表示属于训练集,False表示属于测试集。

数据示例

以下是数据集中的一些示例条目:

json { "text": "Ive always believed in the importance of inclusive sporting events like NBMSG, but the execution this year was lacking. From the get-go, information was scarce, leaving many of us unsure of our roles and responsibilities.", "aspects": { "inclusivity": "Positive", "execution": "Negative", "information": "Negative" }, "is_train": false }, { "text": "The food stalls, despite some limitations, did a fantastic job of offering a taste of home to many attendees. It was a nice touch that added to the overall welcoming atmosphere of the event.", "aspects": { "food stalls": "Positive", "atmosphere": "Positive" }, "is_train": false }, { "text": "Volunteering gave me a sense of purpose. Its cool to be part of something thats all about celebrating diversity and bringing people together.", "aspects": { "volunteering": "Positive", "sense of purpose": "Positive", "diversity": "Positive", "bringing people together": "Positive" }, "is_train": false }

搜集汇总
数据集介绍
main_image_url
构建方式
Sports Feedback数据集是通过结合大型语言模型(LLM)生成和人工标注的多步骤流程构建的。首先,利用GPT-4和Gemini 1.0 Ultra生成初始的体育赛事志愿者反馈文本,其中75%由GPT-4生成,25%由Gemini生成以增加多样性。随后,通过三步标注流程:LLM生成初步标注草案、志愿者选择最佳草案、专家修订和优化标注,确保数据质量。数据集包含480份文档,平均每份222个字符,其中35%的内容涉及隐式方面。
特点
Sports Feedback数据集的特点在于其专注于体育赛事志愿者反馈这一新颖领域,填补了现有ABSA数据集的空白。该数据集包含大量隐式方面(35%),这些方面未在文本中明确提及,需通过上下文推断,增加了分析的复杂性。此外,数据集通过混合生成模型(GPT-4和Gemini)和人工标注的结合,确保了文本的多样性和标注的准确性。其领域特异性为测试ABSA模型的泛化能力提供了独特机会。
使用方法
Sports Feedback数据集适用于评估大型语言模型在基于方面的情感分析(ABSA)中的性能,特别是隐式方面的提取。使用时,可通过加载数据集文档及其标注,利用预训练模型(如Mistral 7B或LLaMA-3)进行方面-极性对提取任务。建议结合上下文学习(ICL)或微调策略,尤其是在处理隐式方面时,使用数据集提供的标注示例优化模型性能。此外,数据集的隐式方面比例使其成为测试模型在低资源领域适应性的理想选择。
背景与挑战
背景概述
Sports Feedback数据集由加拿大圣玛丽大学和约克大学的研究团队于2025年创建,专注于基于方面的情感分析(ABSA)领域。该数据集针对体育赛事志愿者反馈这一新兴领域,通过合成数据生成技术构建,包含480份文档,其中35%涉及隐含方面识别。作为首个覆盖体育领域的ABSA数据集,其创新性地采用GPT-4和Gemini 1.0 Ultra双模型生成策略,并引入人类专家参与的三阶段标注流程,为研究大语言模型在跨领域ABSA任务中的适应性提供了重要基准。该数据集通过解决传统ABSA数据集在隐含方面识别和领域特异性方面的不足,推动了情感分析技术在新兴场景中的应用探索。
当前挑战
该数据集面临双重挑战:在领域问题层面,体育领域的隐含方面识别要求模型理解专业术语和语境暗示,如'志愿者分配效率'等非显式表述,这对传统基于显式匹配的方法构成显著挑战;在构建过程中,数据合成面临生成多样性控制与领域真实性平衡的难题,标注阶段则需解决隐含方面标注一致性低的问题(专家修正率达12.5%)。此外,评估环节需应对语义等价但表述不同的方面匹配问题,研究者通过设计θ=0.95的相似度阈值指标来量化这种语言学变体,但阈值优化仍需依赖人工验证。
常用场景
经典使用场景
在情感分析领域,Sports Feedback数据集被广泛用于基于方面的情感分析(ABSA)任务,尤其是在处理隐含方面提取的复杂场景中。该数据集通过模拟体育赛事志愿者的反馈,为研究者提供了一个包含大量隐含方面的语料库,使得模型能够在缺乏显式表述的情况下推断出情感倾向。这一特性使其成为评估大型语言模型(LLMs)在ABSA任务中适应性和泛化能力的理想选择。
解决学术问题
Sports Feedback数据集解决了ABSA研究中隐含方面提取的难题,尤其是在低资源领域中的挑战。通过提供35%的隐含方面内容,该数据集帮助研究者开发新的算法和评估指标,以更准确地捕捉文本中的隐含情感。此外,该数据集还促进了跨领域ABSA研究,为模型在未见过的领域中表现提供了基准。
衍生相关工作
基于Sports Feedback数据集,研究者们开发了多种创新方法,如基于上下文学习的隐含方面提取技术和新的评估指标。这些工作不仅推动了ABSA领域的发展,还为其他相关任务(如多语言情感分析和跨领域情感迁移)提供了借鉴。例如,一些研究利用该数据集验证了检索增强型上下文学习(retrieval-augmented ICL)在提升模型性能方面的有效性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作