five

atrost/financial_phrasebank

收藏
Hugging Face2023-06-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/atrost/financial_phrasebank
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: sentence dtype: string - name: label dtype: class_label: names: '0': negative '1': neutral '2': positive splits: - name: train num_bytes: 434511.7622781676 num_examples: 3100 - name: validation num_bytes: 108768.10565414774 num_examples: 776 - name: test num_bytes: 135960.1320676847 num_examples: 970 download_size: 420071 dataset_size: 679240.0 --- # Dataset Card for "financial_phrasebank" 64/16/20 Split of the `sentences_50agree` subset of [financial_phrasebank](https://huggingface.co/datasets/financial_phrasebank), according to the [FinBERT paper](https://arxiv.org/abs/1908.10063).

--- ## 数据集信息 特征: - 字段名:sentence,数据类型:字符串 - 字段名:label,数据类型为类别标签(class_label),其类别名称映射为: '0':负面(negative),'1': 中性(neutral),'2': 正面(positive) 数据集划分: - 子集名称:训练集(train),字节数:434511.7622781676,样本数量:3100 - 子集名称:验证集(validation),字节数:108768.10565414774,样本数量:776 - 子集名称:测试集(test),字节数:135960.1320676847,样本数量:970 下载大小:420071 数据集总大小:679240.0 --- # 「financial_phrasebank」数据集卡片 本数据集依据FinBERT论文(https://arxiv.org/abs/1908.10063),从[金融情感短语库(financial_phrasebank)](https://huggingface.co/datasets/financial_phrasebank)的`sentences_50agree`子集中按照64/16/20的比例拆分得到。
提供机构:
atrost
原始信息汇总

数据集概述

数据集信息

  • 特征:
    • 名称: sentence
      • 数据类型: string
    • 名称: label
      • 数据类型:
        • 类别标签:
          • 名称: 0
            • 标签: negative
          • 名称: 1
            • 标签: neutral
          • 名称: 2
            • 标签: positive

数据集划分

  • 训练集:
    • 名称: train
    • 字节数: 434511.7622781676
    • 样本数: 3100
  • 验证集:
    • 名称: validation
    • 字节数: 108768.10565414774
    • 样本数: 776
  • 测试集:
    • 名称: test
    • 字节数: 135960.1320676847
    • 样本数: 970

数据集大小

  • 下载大小: 420071
  • 数据集大小: 679240.0
搜集汇总
数据集介绍
main_image_url
构建方式
atrost/financial_phrasebank数据集的构建,系基于金融领域的特定文本,采用64/16/20的比例,对sentences_50agree子集进行划分,形成了训练集、验证集和测试集。该数据集的构建旨在为金融情感分析提供标注准确的语料资源,其中每个样本包含一个字符串类型的句子和一个对应的情感标签,标签分为负面、中性、正面三种。
特点
该数据集具备的特点在于,其数据来源专注于金融领域,能够为相关任务提供领域特定的语言特征。此外,数据集按照FinBERT论文的建议进行分割,保证了数据集的质量和可用性。标注的情感标签为研究提供了明确的分析目标,有助于推动金融文本情感分析领域的研究进展。
使用方法
在使用atrost/financial_phrasebank数据集时,用户首先需要从HuggingFace平台下载相应的数据集。随后,用户可以根据数据集提供的训练集、验证集和测试集进行模型训练、验证和测试。数据集的每个样本包含句子和标签,可以直接用于监督学习任务,以实现对金融文本情感的分析与预测。
背景与挑战
背景概述
atrost/financial_phrasebank数据集,起源于金融领域文本情感分析的需求,旨在为研究人员提供一份专业的金融短语库。该数据集由FinBERT论文团队于2019年创建,主要研究人员包括来自学术机构和工业界的合作者。该数据集的核心研究问题是识别和分类金融文本中的情感倾向,其研究成果对金融文本挖掘、情感分析以及自然语言处理领域产生了深远的影响。数据集按照64/16/20的比例划分训练集、验证集和测试集,共包含679240个数据点,其中标注了句子及其相应的情感标签,分为负面、中立和正面三种类型。
当前挑战
在构建financial_phrasebank数据集的过程中,研究人员面临着多方面的挑战。首先,金融领域的专业术语和表达方式具有高度专业性,这要求数据标注过程必须精确且具有一致性。其次,情感倾向的识别在金融领域尤为复杂,因为同样的表达在不同上下文中可能具有不同的情感色彩。此外,构建一个大规模且高质量的数据集在资源分配、数据清洗和标注上均需克服重重困难。在领域问题上,financial_phrasebank数据集解决的挑战是如何准确地从非结构化的金融文本中提取情感信息,为投资决策和风险评估提供支持。
常用场景
经典使用场景
在金融文本分析领域,atrost/financial_phrasebank数据集的经典使用场景主要在于情感分析。其通过标注金融句子为负面、中性或正面情感,为研究者提供了一个丰富的文本资源,以便训练和评估情感分类模型,从而在金融报告、新闻或社交媒体中准确捕捉市场情绪。
实际应用
在实际应用中,atrost/financial_phrasebank数据集被广泛应用于金融风险评估、投资策略优化以及市场监控等领域。金融机构可以利用该数据集训练出的模型来预测市场趋势,进行客户情绪分析,以及改善客户服务体验。
衍生相关工作
基于atrost/financial_phrasebank数据集,研究者们衍生出了众多相关工作,包括但不限于金融市场情绪监测、金融文本的语义角色标注,以及结合金融知识的情感分析模型构建等,这些工作进一步拓宽了金融文本分析的研究领域。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作