five

absa_llama

收藏
Hugging Face2025-03-23 更新2025-03-24 收录
下载链接:
https://huggingface.co/datasets/aschimmenti2/absa_llama
下载链接
链接失效反馈
官方服务:
资源简介:
ABSA_llama是一个半合成数据集,包含10,000条文学评论,具有细粒度的基于方面的情感注释和DOLCE本体实体标注。该数据集是为了证明在综合文化遗产领域生成高质量ABSA数据集的概念,适用于缺乏全面标注数据的领域。
创建时间:
2025-03-19
原始信息汇总

ABSA_llama 数据集概述

数据集基本信息

  • 名称: ABSA_llama
  • 类型: 文本分类、文本生成
  • 语言: 英语
  • 许可证: Apache 2.0
  • 大小: 1K < n < 10K
  • 下载大小: 5891450 字节
  • 数据集大小: 96743754 字节

数据集描述

ABSA_llama 是一个包含10,000条文学评论的半合成数据集,具有细粒度的基于方面的情感注释和DOLCE本体实体类型。该数据集旨在为文化传承等领域生成高质量的ABSA数据集,特别是在缺乏全面注释数据的领域。数据集结合了来自Wikidata和OpenLibrary的结构化知识以及人类撰写的书评,并使用大型语言模型增强,以保持语言真实性,同时融入特定领域的方面。

数据集结构

数据实例

每个实例的结构如下: json { "conversations": [ { "from": "human", "value": "You are an expert literary review aspect-based sentiment analyzer. Analyze the book review to identify aspects, categorize them, and determine the sentiment..." }, { "from": "llm", "value": "{"aspects": [{"aspect": "James Hilton", "category": "BOOK#AUTHOR", "sentiment": "positive", "confidence": 0.9, "mention_type": "explicit", "evidence": "James Hiltons storytelling is truly captivating", "DOLCEType": "Person"}, ...]}" } ] }

数据字段

  • conversations: 对话元素列表
    • from: 消息来源("human" 或 "gpt")
    • value: 消息内容
      • 人类消息包含指令和要分析的书评
      • GPT消息包含结构化JSON响应,包含以下字段:
        • aspects: 方面对象列表,每个对象包含:
          • aspect: 评论中提到的特定方面(如角色名称、主题)
          • category: 方面与来源的关系(如CONTENT#TOPIC)
          • sentiment: 对该方面的情感(正面、负面、中性)
          • confidence: 情感分析的置信度(0-1)
          • mention_type: 方面是明确提及还是隐含推断
          • evidence: 支持该方面分析的具体文本
          • DOLCEType: DOLCE本体中的实体类型(如Person、Event、Location)

类别

内容方面

  • CONTENT#GENRE: 提到的类型
  • CONTENT#SETTING: 提到的背景
  • CONTENT#STYLE: 提到的风格
  • CONTENT#CHARACTER: 提到的角色
  • CONTENT#TOPIC: 描述的主题
  • CONTENT#PERIOD: 讨论的时间段
  • CONTENT#EVENT: 历史、自然或虚构事件
  • CONTENT#MOVEMENT: 文学运动

书籍方面

  • BOOK#TITLE: 书籍标题
  • BOOK#AUTHOR: 提到的作者
  • BOOK#REFERENCE: 不同作品的引用
  • BOOK#AUDIENCE: 提到的目标受众
  • BOOK#AWARD: 提到的奖项
  • BOOK#GENERAL: 一般书籍方面

DOLCE实体类型

数据集使用以下DOLCE基础本体中的实体类型:

  • Abstract
  • Activity
  • Characteristic
  • Collection
  • Concept
  • Description
  • Event
  • InformationEntity
  • Location
  • Organism
  • Organization
  • Person
  • Personification
  • PhysicalObject
  • Process
  • Relation
  • SocialObject
  • System
  • TimeInterval
  • Topic

数据集创建

源数据

  • 输入:
    • 从Wikidata中选取的1,000部文学作品,包括类型、作者、角色、叙事地点等元数据
    • 来自OpenLibrary API的额外数据,包括描述、主题、人物、地点和时间段
    • 来自INEX Amazon/LibraryThing Book Corpus的人类撰写的书评

注释过程

  1. 从Wikidata和OpenLibrary中提取结构化数据
  2. 方面注入:每本书随机选择1-10个方面,遵循正态分布
  3. 使用GPT-4o-mini生成评论,遵循少量指令模式
  4. 使用Text2AMR2FRED进行方面与DOLCE的对齐,并进行手动验证

使用注意事项

引用信息

如果使用此数据集进行研究,请引用 [TBA]

社会影响

该数据集旨在将ABSA技术扩展到消费者评论之外的文化传承领域,可能实现对文学作品和其他文化制品的更细致分析。通过集成DOLCE本体进行实体类型化,它为理解文学背景中表达的观点提供了更丰富的语义框架。

偏见讨论

作为一个使用LLMs生成的半合成数据集,它可能会继承底层模型和源数据中的偏见。尽管在选择方面和情感分布方面做出了努力,用户应注意文学主题覆盖、情感表达模式或文化代表性方面的潜在偏见。

其他信息

数据集维护者

Andrea Schimmenti

贡献

感谢Wikidata和OpenLibrary提供用于创建此数据集的结构化数据。

搜集汇总
数据集介绍
main_image_url
构建方式
ABSA_llama数据集的构建过程结合了结构化知识提取与半合成数据生成技术。首先,从Wikidata和OpenLibrary中选取了1000部文学作品及其元数据,包括作者、角色、叙事地点等信息。随后,利用GPT-4o-mini模型生成书评,并通过Text2AMR2FRED工具将生成的方面与DOLCE本体进行对齐,确保语义的丰富性和准确性。整个过程通过人工验证,确保了数据的高质量和领域适应性。
特点
ABSA_llama数据集以其精细的方面情感分析和DOLCE本体实体类型标注而著称。数据集包含10,000条文学评论,每条评论均标注了多个方面及其情感极性、置信度、提及类型等详细信息。此外,数据集还引入了DOLCE本体中的多种实体类型,如人物、事件、地点等,为文学评论的情感分析提供了更为丰富的语义框架。这种结合了结构化知识和自然语言处理技术的设计,使得数据集在文化传承领域的应用具有独特优势。
使用方法
ABSA_llama数据集适用于文本分类和文本生成任务,特别是在方面情感分析和实体类型识别领域。用户可以通过加载数据集并解析其结构化的JSON格式数据,获取每条评论的方面、情感极性及DOLCE实体类型信息。数据集中的训练集和测试集分别包含7965条和1992条数据,用户可根据需求进行模型训练和评估。此外,数据集还提供了详细的指令和示例,帮助用户快速上手并应用于实际研究或开发中。
背景与挑战
背景概述
ABSA_llama数据集是一个专注于文学评论的细粒度情感分析数据集,结合了DOLCE本体论的实体类型标注。该数据集由Andrea Schimmenti等人于近期创建,旨在解决文化遗产领域中高质量标注数据稀缺的问题。通过整合来自Wikidata和OpenLibrary的结构化知识,并结合人类撰写的书评,ABSA_llama利用大型语言模型生成半合成数据,以确保语言真实性和领域特定性。该数据集不仅为文学评论的情感分析提供了新的研究视角,还为文化领域的自然语言处理任务提供了丰富的语义框架。
当前挑战
ABSA_llama数据集在构建过程中面临多重挑战。首先,细粒度情感分析要求对文学评论中的多个方面进行精确标注,包括情感极性、实体类型及其关系,这对标注的一致性和准确性提出了极高要求。其次,尽管使用了大型语言模型生成数据,但如何确保生成内容与真实文学评论的语言风格和语义深度一致,仍是一个技术难题。此外,数据集可能继承模型和源数据中的偏见,例如文学主题覆盖的局限性或文化表达的偏差,这需要在后续研究中加以识别和修正。
常用场景
经典使用场景
在文学评论的细粒度情感分析领域,ABSA_llama数据集提供了一个独特的应用场景。该数据集通过结合DOLCE本体论和半合成数据生成技术,能够精确识别和分析文学评论中的特定方面及其情感倾向。这种分析不仅限于传统的正面或负面情感,还包括对文学作品中人物、主题、风格等多维度的情感评估,为文学研究提供了新的视角。
实际应用
在实际应用中,ABSA_llama数据集被广泛用于文学作品的自动评论分析系统。这些系统能够自动识别评论中的关键方面,如作者、主题、风格等,并评估读者对这些方面的情感反应。此外,该数据集还被应用于文化遗产的数字存档项目,帮助保存和分析文学作品中的情感信息,为文学研究和教育提供了宝贵的资源。
衍生相关工作
ABSA_llama数据集的推出,激发了多项相关研究工作的开展。例如,基于该数据集的细粒度情感分析模型被开发出来,用于更精确地捕捉文学评论中的情感细节。此外,该数据集还被用于开发新的本体论对齐技术,以更好地理解和分类文学评论中的实体和情感。这些工作不仅扩展了情感分析的应用范围,也为文学评论的自动处理提供了新的工具和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作