absa_llama

Hugging Face2025-03-23 更新2025-03-24 收录

下载链接：

https://huggingface.co/datasets/aschimmenti2/absa_llama

下载链接

链接失效反馈

官方服务：

资源简介：

ABSA_llama是一个半合成数据集，包含10,000条文学评论，具有细粒度的基于方面的情感注释和DOLCE本体实体标注。该数据集是为了证明在综合文化遗产领域生成高质量ABSA数据集的概念，适用于缺乏全面标注数据的领域。

创建时间：

2025-03-19

原始信息汇总

ABSA_llama 数据集概述

数据集基本信息

名称: ABSA_llama
类型: 文本分类、文本生成
语言: 英语
许可证: Apache 2.0
大小: 1K < n < 10K
下载大小: 5891450 字节
数据集大小: 96743754 字节

数据集描述

ABSA_llama 是一个包含10,000条文学评论的半合成数据集，具有细粒度的基于方面的情感注释和DOLCE本体实体类型。该数据集旨在为文化传承等领域生成高质量的ABSA数据集，特别是在缺乏全面注释数据的领域。数据集结合了来自Wikidata和OpenLibrary的结构化知识以及人类撰写的书评，并使用大型语言模型增强，以保持语言真实性，同时融入特定领域的方面。

数据集结构

数据实例

每个实例的结构如下： json { "conversations": [ { "from": "human", "value": "You are an expert literary review aspect-based sentiment analyzer. Analyze the book review to identify aspects, categorize them, and determine the sentiment..." }, { "from": "llm", "value": "{"aspects": [{"aspect": "James Hilton", "category": "BOOK#AUTHOR", "sentiment": "positive", "confidence": 0.9, "mention_type": "explicit", "evidence": "James Hiltons storytelling is truly captivating", "DOLCEType": "Person"}, ...]}" } ] }

数据字段

conversations: 对话元素列表
- from: 消息来源（"human" 或 "gpt"）
- value: 消息内容
  - 人类消息包含指令和要分析的书评
  - GPT消息包含结构化JSON响应，包含以下字段：
    - aspects: 方面对象列表，每个对象包含：
      - aspect: 评论中提到的特定方面（如角色名称、主题）
      - category: 方面与来源的关系（如CONTENT#TOPIC）
      - sentiment: 对该方面的情感（正面、负面、中性）
      - confidence: 情感分析的置信度（0-1）
      - mention_type: 方面是明确提及还是隐含推断
      - evidence: 支持该方面分析的具体文本
      - DOLCEType: DOLCE本体中的实体类型（如Person、Event、Location）

类别

内容方面

CONTENT#GENRE: 提到的类型
CONTENT#SETTING: 提到的背景
CONTENT#STYLE: 提到的风格
CONTENT#CHARACTER: 提到的角色
CONTENT#TOPIC: 描述的主题
CONTENT#PERIOD: 讨论的时间段
CONTENT#EVENT: 历史、自然或虚构事件
CONTENT#MOVEMENT: 文学运动

书籍方面

BOOK#TITLE: 书籍标题
BOOK#AUTHOR: 提到的作者
BOOK#REFERENCE: 不同作品的引用
BOOK#AUDIENCE: 提到的目标受众
BOOK#AWARD: 提到的奖项
BOOK#GENERAL: 一般书籍方面

DOLCE实体类型

数据集使用以下DOLCE基础本体中的实体类型：

Abstract
Activity
Characteristic
Collection
Concept
Description
Event
InformationEntity
Location
Organism
Organization
Person
Personification
PhysicalObject
Process
Relation
SocialObject
System
TimeInterval
Topic

数据集创建

源数据

输入:
- 从Wikidata中选取的1,000部文学作品，包括类型、作者、角色、叙事地点等元数据
- 来自OpenLibrary API的额外数据，包括描述、主题、人物、地点和时间段
- 来自INEX Amazon/LibraryThing Book Corpus的人类撰写的书评

注释过程

从Wikidata和OpenLibrary中提取结构化数据
方面注入：每本书随机选择1-10个方面，遵循正态分布
使用GPT-4o-mini生成评论，遵循少量指令模式
使用Text2AMR2FRED进行方面与DOLCE的对齐，并进行手动验证

使用注意事项

引用信息

如果使用此数据集进行研究，请引用 [TBA]

社会影响

该数据集旨在将ABSA技术扩展到消费者评论之外的文化传承领域，可能实现对文学作品和其他文化制品的更细致分析。通过集成DOLCE本体进行实体类型化，它为理解文学背景中表达的观点提供了更丰富的语义框架。

偏见讨论

作为一个使用LLMs生成的半合成数据集，它可能会继承底层模型和源数据中的偏见。尽管在选择方面和情感分布方面做出了努力，用户应注意文学主题覆盖、情感表达模式或文化代表性方面的潜在偏见。

其他信息

数据集维护者

Andrea Schimmenti

贡献

感谢Wikidata和OpenLibrary提供用于创建此数据集的结构化数据。

搜集汇总

数据集介绍

构建方式

ABSA_llama数据集的构建过程结合了结构化知识提取与半合成数据生成技术。首先，从Wikidata和OpenLibrary中选取了1000部文学作品及其元数据，包括作者、角色、叙事地点等信息。随后，利用GPT-4o-mini模型生成书评，并通过Text2AMR2FRED工具将生成的方面与DOLCE本体进行对齐，确保语义的丰富性和准确性。整个过程通过人工验证，确保了数据的高质量和领域适应性。

特点

ABSA_llama数据集以其精细的方面情感分析和DOLCE本体实体类型标注而著称。数据集包含10,000条文学评论，每条评论均标注了多个方面及其情感极性、置信度、提及类型等详细信息。此外，数据集还引入了DOLCE本体中的多种实体类型，如人物、事件、地点等，为文学评论的情感分析提供了更为丰富的语义框架。这种结合了结构化知识和自然语言处理技术的设计，使得数据集在文化传承领域的应用具有独特优势。

使用方法

ABSA_llama数据集适用于文本分类和文本生成任务，特别是在方面情感分析和实体类型识别领域。用户可以通过加载数据集并解析其结构化的JSON格式数据，获取每条评论的方面、情感极性及DOLCE实体类型信息。数据集中的训练集和测试集分别包含7965条和1992条数据，用户可根据需求进行模型训练和评估。此外，数据集还提供了详细的指令和示例，帮助用户快速上手并应用于实际研究或开发中。

背景与挑战

背景概述

ABSA_llama数据集是一个专注于文学评论的细粒度情感分析数据集，结合了DOLCE本体论的实体类型标注。该数据集由Andrea Schimmenti等人于近期创建，旨在解决文化遗产领域中高质量标注数据稀缺的问题。通过整合来自Wikidata和OpenLibrary的结构化知识，并结合人类撰写的书评，ABSA_llama利用大型语言模型生成半合成数据，以确保语言真实性和领域特定性。该数据集不仅为文学评论的情感分析提供了新的研究视角，还为文化领域的自然语言处理任务提供了丰富的语义框架。

当前挑战

ABSA_llama数据集在构建过程中面临多重挑战。首先，细粒度情感分析要求对文学评论中的多个方面进行精确标注，包括情感极性、实体类型及其关系，这对标注的一致性和准确性提出了极高要求。其次，尽管使用了大型语言模型生成数据，但如何确保生成内容与真实文学评论的语言风格和语义深度一致，仍是一个技术难题。此外，数据集可能继承模型和源数据中的偏见，例如文学主题覆盖的局限性或文化表达的偏差，这需要在后续研究中加以识别和修正。

常用场景

经典使用场景

在文学评论的细粒度情感分析领域，ABSA_llama数据集提供了一个独特的应用场景。该数据集通过结合DOLCE本体论和半合成数据生成技术，能够精确识别和分析文学评论中的特定方面及其情感倾向。这种分析不仅限于传统的正面或负面情感，还包括对文学作品中人物、主题、风格等多维度的情感评估，为文学研究提供了新的视角。

实际应用

在实际应用中，ABSA_llama数据集被广泛用于文学作品的自动评论分析系统。这些系统能够自动识别评论中的关键方面，如作者、主题、风格等，并评估读者对这些方面的情感反应。此外，该数据集还被应用于文化遗产的数字存档项目，帮助保存和分析文学作品中的情感信息，为文学研究和教育提供了宝贵的资源。

衍生相关工作

ABSA_llama数据集的推出，激发了多项相关研究工作的开展。例如，基于该数据集的细粒度情感分析模型被开发出来，用于更精确地捕捉文学评论中的情感细节。此外，该数据集还被用于开发新的本体论对齐技术，以更好地理解和分类文学评论中的实体和情感。这些工作不仅扩展了情感分析的应用范围，也为文学评论的自动处理提供了新的工具和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集