absa_llama
收藏ABSA_llama 数据集概述
数据集基本信息
- 名称: ABSA_llama
- 类型: 文本分类、文本生成
- 语言: 英语
- 许可证: Apache 2.0
- 大小: 1K < n < 10K
- 下载大小: 5891450 字节
- 数据集大小: 96743754 字节
数据集描述
ABSA_llama 是一个包含10,000条文学评论的半合成数据集,具有细粒度的基于方面的情感注释和DOLCE本体实体类型。该数据集旨在为文化传承等领域生成高质量的ABSA数据集,特别是在缺乏全面注释数据的领域。数据集结合了来自Wikidata和OpenLibrary的结构化知识以及人类撰写的书评,并使用大型语言模型增强,以保持语言真实性,同时融入特定领域的方面。
数据集结构
数据实例
每个实例的结构如下: json { "conversations": [ { "from": "human", "value": "You are an expert literary review aspect-based sentiment analyzer. Analyze the book review to identify aspects, categorize them, and determine the sentiment..." }, { "from": "llm", "value": "{"aspects": [{"aspect": "James Hilton", "category": "BOOK#AUTHOR", "sentiment": "positive", "confidence": 0.9, "mention_type": "explicit", "evidence": "James Hiltons storytelling is truly captivating", "DOLCEType": "Person"}, ...]}" } ] }
数据字段
conversations: 对话元素列表from: 消息来源("human" 或 "gpt")value: 消息内容- 人类消息包含指令和要分析的书评
- GPT消息包含结构化JSON响应,包含以下字段:
aspects: 方面对象列表,每个对象包含:aspect: 评论中提到的特定方面(如角色名称、主题)category: 方面与来源的关系(如CONTENT#TOPIC)sentiment: 对该方面的情感(正面、负面、中性)confidence: 情感分析的置信度(0-1)mention_type: 方面是明确提及还是隐含推断evidence: 支持该方面分析的具体文本DOLCEType: DOLCE本体中的实体类型(如Person、Event、Location)
类别
内容方面
CONTENT#GENRE: 提到的类型CONTENT#SETTING: 提到的背景CONTENT#STYLE: 提到的风格CONTENT#CHARACTER: 提到的角色CONTENT#TOPIC: 描述的主题CONTENT#PERIOD: 讨论的时间段CONTENT#EVENT: 历史、自然或虚构事件CONTENT#MOVEMENT: 文学运动
书籍方面
BOOK#TITLE: 书籍标题BOOK#AUTHOR: 提到的作者BOOK#REFERENCE: 不同作品的引用BOOK#AUDIENCE: 提到的目标受众BOOK#AWARD: 提到的奖项BOOK#GENERAL: 一般书籍方面
DOLCE实体类型
数据集使用以下DOLCE基础本体中的实体类型:
- Abstract
- Activity
- Characteristic
- Collection
- Concept
- Description
- Event
- InformationEntity
- Location
- Organism
- Organization
- Person
- Personification
- PhysicalObject
- Process
- Relation
- SocialObject
- System
- TimeInterval
- Topic
数据集创建
源数据
- 输入:
- 从Wikidata中选取的1,000部文学作品,包括类型、作者、角色、叙事地点等元数据
- 来自OpenLibrary API的额外数据,包括描述、主题、人物、地点和时间段
- 来自INEX Amazon/LibraryThing Book Corpus的人类撰写的书评
注释过程
- 从Wikidata和OpenLibrary中提取结构化数据
- 方面注入:每本书随机选择1-10个方面,遵循正态分布
- 使用GPT-4o-mini生成评论,遵循少量指令模式
- 使用Text2AMR2FRED进行方面与DOLCE的对齐,并进行手动验证
使用注意事项
引用信息
如果使用此数据集进行研究,请引用 [TBA]
社会影响
该数据集旨在将ABSA技术扩展到消费者评论之外的文化传承领域,可能实现对文学作品和其他文化制品的更细致分析。通过集成DOLCE本体进行实体类型化,它为理解文学背景中表达的观点提供了更丰富的语义框架。
偏见讨论
作为一个使用LLMs生成的半合成数据集,它可能会继承底层模型和源数据中的偏见。尽管在选择方面和情感分布方面做出了努力,用户应注意文学主题覆盖、情感表达模式或文化代表性方面的潜在偏见。
其他信息
数据集维护者
Andrea Schimmenti
贡献
感谢Wikidata和OpenLibrary提供用于创建此数据集的结构化数据。




