chABSA-dataset

github2024-05-11 更新2024-05-31 收录

下载链接：

https://github.com/chakki-works/chABSA-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

chABSA数据集是一个专门为Aspect-Based Sentiment Analysis设计的，其注释目标是每家公司的业务成果概览，具体为日本年度报告中的`OverviewOfBusinessResultsTextBlock`部分。数据集从EDINET发布的日本年度报告中选取，并定义了详细的格式。

The chABSA dataset is specifically designed for Aspect-Based Sentiment Analysis, with its annotation target being the business performance overview of each company, specifically the `OverviewOfBusinessResultsTextBlock` section in Japanese annual reports. The dataset is selected from the annual reports published by EDINET and defines a detailed format.

创建时间：

2017-12-27

原始信息汇总

数据集概述

数据集名称： chABSA-dataset

数据集描述： chABSA-dataset 是一个Aspect-Based Sentiment Analysis（ABSA）数据集，专注于日本年度报告中“业务结果概览”部分的文本块，即OverviewOfBusinessResultsTextBlock。

数据集内容

标注目标： 数据集的标注目标是对日本年度报告中关于公司业务结果的概览文本进行情感分析。

实体与属性对： 数据集定义了多种实体与属性的配对，包括市场、公司、业务、产品等，每个实体下有多个属性如销售、利润、成本等。

数据集下载

下载链接： chABSA-dataset下载链接

标注公司数量： 数据集包含230家公司的标注数据，占所有公司的10%。

数据集组织

标注格式： 标注结果以JSON文件格式提供，包含文档头信息和句子级别的标注结果。

JSON结构：

header： 包含文档ID、名称、文本类型、EDINET代码、证券代码、行业分类和公司规模。
sentences： 包含句子ID、文本内容及情感分析结果，每个句子可能包含多个情感分析项，每个分析项包括目标实体、类别、情感极性、位置范围。

许可证

许可证： 数据集遵循Creative Commons Attribution 4.0 License。

搜集汇总

数据集介绍

构建方式

chABSA-dataset数据集的构建基于日本企业的年度报告，特别是从这些报告中提取的‘OverviewOfBusinessResultsTextBlock’部分。这些报告来源于EDINET平台，并遵循日本金融厅的格式定义。数据集的标注目标是对企业业务结果的概述进行情感分析，具体包括对不同实体（如市场、公司、业务等）及其属性的情感极性（如正面、负面、中性）进行标注。标注过程遵循详细的指南，确保数据的一致性和准确性。

使用方法

使用chABSA-dataset数据集时，用户可以通过提供的下载链接获取数据，并参考附带的Jupyter Notebook示例进行数据探索和模型训练。数据集的JSON格式使得数据处理和分析变得直观和高效。用户可以利用这些数据进行情感分析模型的开发和评估，特别是在企业业务结果的情感分析领域。此外，数据集的开放性和详细的文档支持，使得不同层次的研究者和开发者都能从中受益。

背景与挑战

背景概述

chABSA-dataset是由研究人员开发的一个基于方面的情感分析（Aspect-Based Sentiment Analysis, ABSA）数据集，专注于日本公司年度报告中的‘业务结果概述’部分。该数据集的创建旨在解决从非结构化文本中提取特定方面的情感信息的挑战，特别是在企业财务报告的背景下。通过从EDINET平台获取的日本年度报告中提取数据，该数据集提供了对市场、公司、业务、产品和NULL等多个实体及其属性的情感标注。这一数据集的开发不仅为情感分析领域提供了新的研究资源，还为金融领域的自动化分析提供了基础数据支持。

当前挑战

chABSA-dataset在构建过程中面临了多个挑战。首先，从非结构化的年度报告中提取和标注特定方面的情感信息需要复杂的自然语言处理技术，尤其是处理日语文本的多义性和复杂语法结构。其次，数据集的标注过程涉及多个实体和属性的配对，确保标注的一致性和准确性是一个重要的挑战。此外，数据集的规模相对较小，仅标注了2,260家公司中的230家，这可能限制了其在深度学习模型训练中的应用。最后，如何处理标注中的噪声和不确定性，以及如何扩展数据集以覆盖更多公司和行业，也是未来研究中需要解决的问题。

常用场景

经典使用场景

chABSA-dataset 主要用于基于方面的情感分析（Aspect-Based Sentiment Analysis, ABSA）任务。该数据集通过标注日本企业年报中的业务结果概述部分，提供了丰富的实体和属性对，如市场、公司、业务、产品等，以及相应的情感极性（如正面、负面、中性）。研究者可以利用该数据集训练模型，以自动识别和分析文本中特定方面的情感倾向，从而为金融分析、市场研究等领域提供支持。

解决学术问题

chABSA-dataset 解决了在多领域文本中进行细粒度情感分析的学术挑战。传统的情感分析通常针对整体文本进行，而该数据集通过提供实体和属性的情感标注，使得研究者能够深入分析特定方面的情感倾向。这不仅推动了情感分析技术的发展，还为跨领域的文本分析提供了新的研究方向，特别是在金融和商业文本分析中具有重要意义。

实际应用

chABSA-dataset 在实际应用中具有广泛的前景，特别是在金融和商业分析领域。通过分析企业年报中的情感信息，投资者和分析师可以更准确地评估企业的经营状况和市场前景。此外，该数据集还可用于自动化报告生成、市场趋势预测等任务，帮助企业做出更明智的决策。在金融科技和商业智能领域，该数据集的应用潜力巨大。

数据集最近研究