4P Corpus

github2020-06-23 更新2024-05-31 收录

下载链接：

https://github.com/raphsilva/corpus-4p

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含642个句子，这些句子是从Buscapé网站上的542个买家评论中收集的，涉及四个产品：两部手机和两台数码相机。数据集用于测试对比意见总结方法，每个句子中的意见通过其方面和极性进行手动标注。

This dataset contains 642 sentences collected from 542 buyer reviews on the Buscapé website, involving four products: two mobile phones and two digital cameras. It is used for testing comparative opinion summarization methods, and the opinions in each sentence are manually annotated with their respective aspects and polarities.

创建时间：

2019-09-15

原始信息汇总

数据集概述

数据集目的

本数据集旨在测试对比意见摘要方法，通过比较两实体在意见文本中的表现。数据集包含642个句子，来自542个买家在Buscapé网站上发布的关于四款电子产品的评论。

数据集内容

数据组织

dataset: 包含数据集的不同版本。
- skim: 清洁且扩展的JSON格式数据集。
- whole: 包含完整标注信息的数据集。
  - sentences: 原始文本按句子分割。
  - opinion: 文本按意见分割。
  - json: 包含所有信息的JSON格式。

标注信息

aspects: 产品特征，用大写字母标签表示。
polarities: 意见极性，用符号表示，包括正、负、中性等。

数据集扩展

通过创建新的排列组合，形成了八对排列，模拟不同意见文本集的可能性。

量化视图

数据集通过不同的排列展示了句子数量、不同方面、正面和负面意见的数量。每个排列对由两个排列组成，命名为DXa和DXb，其中X为1至8的数字。

arr.	entity	aspects	sentences	positive	negative
D1a	Motorola Moto G5 Plus	15	269	346	101
D1b	Galaxy S7	14	253	342	91
D2a	Canon EOS Rebel T5	13	68	77	11
D2b	Canon PowerShot SX520 HS	15	52	68	8
D3a	(subset of D1a)	11	150	143	65
D3b	(subset of D1b)	10	109	85	65
D4a	(subset of D1a)	13	43	56	13
D4b	(copy of D1b)	14	253	342	91
D5a	(subset of D2a)	12	39	40	10
D5b	(subset of D2b)	10	30	37	3
D6a	(subset of D2a)	8	29	37	1
D6b	(subset of D2b)	11	22	31	5
D7a	(subset of D2a)	4	31	33	6
D7b	(subset of D2b)	4	25	22	4
D8a	(subset of D1a)	12	39	62	10
D8b	(subset of D1b)	12	32	36	15

数据集特点

手动标注每个句子的意见，包括方面和极性。
每个句子可能包含多个意见。
定义了特殊方面，如超出范围、上下文、无关等。
极性包括强正、弱正、中立等多种类型。

搜集汇总

数据集介绍

构建方式

4P Corpus数据集的构建过程主要围绕对比性意见摘要任务展开。研究者从Buscapé网站上收集了542条关于四款电子产品的买家评论，共计642个句子。每个句子中的意见均经过人工标注，标注内容包括意见的方面（aspect）和极性（polarity）。方面指产品被评价的特征，极性则表明意见是正面还是负面。此外，数据集通过创建新的排列组合进行了扩展，形成了八对不同的文本排列，以模拟其他可能的意见文本集合。

使用方法

4P Corpus数据集的使用方法较为灵活。数据集以JSON格式提供，分为“skim”和“whole”两个版本，分别包含简洁版和完整标注信息。用户可以通过加载JSON文件直接访问句子、意见及其标注信息。此外，数据集还提供了用于标注的工具和脚本，如`generate.py`，可用于生成标注预览和最终数据集格式。研究者可以根据需要选择不同的排列组合进行实验，以验证对比性意见摘要模型的性能。数据集的使用需遵循GNU通用公共许可证，并在衍生作品中注明作者或引用相关文献。

背景与挑战

背景概述

4P Corpus数据集由巴西圣保罗大学NILC实验室的研究人员于2019年创建，旨在支持对比性意见摘要任务的研究。该数据集包含642条来自Buscapé网站的葡萄牙语评论，涉及四款电子产品（两款手机和两款数码相机）。每条评论中的句子均经过手动标注，标注内容包括意见的方面（aspect）和极性（polarity），以帮助研究者分析用户对产品不同特征的正面或负面评价。该数据集的构建为自然语言处理领域中的意见挖掘和摘要生成提供了重要的资源，尤其在多语言环境下，为葡萄牙语文本的情感分析研究开辟了新的方向。

当前挑战

4P Corpus数据集在构建和应用过程中面临多重挑战。首先，对比性意见摘要任务本身具有复杂性，要求模型能够从大量文本中提取并对比不同实体的意见，这对算法的精确性和鲁棒性提出了较高要求。其次，数据集的构建过程中，手动标注的准确性至关重要，尤其是在处理多义词、模糊表达或情感极性不明确的句子时，标注者需要具备高度的语言理解和领域知识。此外，数据集的扩展版本通过不同策略生成新的句子组合，这虽然增加了数据的多样性，但也可能引入噪声，影响模型的训练效果。最后，由于数据集主要基于葡萄牙语，其跨语言迁移能力有限，如何将其应用于其他语言环境仍是一个待解决的问题。

常用场景

经典使用场景

4P Corpus数据集在自然语言处理领域，尤其是情感分析和对比性意见摘要任务中，展现了其独特的价值。该数据集通过手动标注的葡萄牙语电子产品的用户评论，为研究者提供了一个丰富的资源，用于开发和测试对比性意见摘要算法。这些算法旨在从关于两个实体的意见文本中提取并比较关键信息，从而生成简洁的对比摘要。

解决学术问题

4P Corpus解决了情感分析领域中的多个关键问题，尤其是在多语言环境下进行细粒度情感分析的挑战。通过提供详细的方面和极性标注，该数据集使得研究者能够深入探讨用户对电子产品的具体特征的评价，从而推动了对情感极性识别、方面级情感分析等任务的研究进展。此外，数据集的扩展版本还模拟了不同文本集合的可能性，为对比性意见摘要任务提供了多样化的实验场景。

实际应用

在实际应用中，4P Corpus数据集为电子商务平台提供了宝贵的用户反馈分析工具。通过分析用户对电子产品的评论，平台可以更好地理解用户的需求和偏好，从而优化产品推荐和市场营销策略。此外，该数据集还可用于开发智能客服系统，帮助自动识别和回应用户的负面反馈，提升用户体验。

数据集最近研究