five

SALT-NLP/FLUE-FiQA|金融数据集|自然语言处理数据集

收藏
hugging_face2022-10-21 更新2024-03-04 收录
金融
自然语言处理
下载链接:
https://hf-mirror.com/datasets/SALT-NLP/FLUE-FiQA
下载链接
链接失效反馈
资源简介:
FLUE(金融语言理解评估)是一个综合且异构的基准,由五个不同的金融领域特定数据集构建而成。这些数据集涵盖了情感分类、情感分析、问答、新闻标题分类、命名实体识别和结构边界检测等任务。FiQA数据集包含corpus、queries和qrels文件,分别以.jsonl和.tsv格式存储,用于文档、查询和相关性判断的表示。
提供机构:
SALT-NLP
原始信息汇总

数据集概述

数据集名称

  • 名称: FLUE (Financial Language Understanding Evaluation)

数据集内容

  • 类型: 综合性和异构性基准
  • 构成: 由5个不同金融领域的数据集组成

数据集组成部分

  1. 情感分类:

  2. 情感分析和问答:

  3. 新闻标题分类:

  4. 命名实体识别:

    • 数据集: NER
    • 链接: NER
  5. 结构边界检测:

    • 数据集: FinSBD3
    • 链接: FinSBD3

数据集结构

  • FiQA数据集结构:
    • corpus 文件: .jsonl 格式,包含文档标识符、标题和文本。
    • queries 文件: .jsonl 格式,包含查询标识符和查询文本。
    • qrels 文件: .tsv 格式,包含查询ID、文档ID和分数。
AI搜集汇总
数据集介绍
main_image_url
构建方式
FLUE-FiQA数据集作为金融语言理解评估(FLUE)基准的一部分,整合了多个金融领域的数据集,旨在提供全面的金融文本理解能力评估。该数据集通过收集和整理来自不同金融文本源的语料,构建了一个包含文档、查询和相关度评分的结构化数据集。具体而言,数据集由三个主要文件组成:corpus文件以JSONL格式存储文档信息,queries文件记录查询内容,qrels文件则以TSV格式保存查询与文档之间的相关性评分。
特点
FLUE-FiQA数据集的特点在于其多样性和专业性。它不仅涵盖了金融领域的广泛文本类型,如新闻标题、金融报告和问答对,还通过精确的相关性评分机制,确保了数据的高质量和实用性。此外,数据集的构建遵循严格的格式标准,便于研究人员和开发者直接应用于模型训练和评估,特别是在金融文本的情感分析、问答系统和命名实体识别等任务中表现出色。
使用方法
使用FLUE-FiQA数据集时,研究人员可以通过加载corpus、queries和qrels文件,快速构建金融文本理解任务的数据管道。首先,利用corpus文件中的文档信息进行文本预处理和特征提取;其次,结合queries文件中的查询内容,设计适合的模型输入;最后,通过qrels文件中的相关性评分,评估模型在金融文本匹配和问答任务中的性能。该数据集可直接与Hugging Face平台上的预训练模型集成,为金融领域的自然语言处理研究提供强有力的支持。
背景与挑战
背景概述
FLUE-FiQA数据集是SALT-NLP团队开发的一个金融领域语言理解评估基准,旨在通过整合多个金融领域的数据集,推动金融文本分析技术的发展。该数据集构建于2018年,主要基于FiQA 2018数据集,涵盖了情感分析、问答系统等任务。FLUE-FiQA的创建标志着金融领域自然语言处理研究的一个重要里程碑,为研究人员提供了一个统一的评估平台,促进了金融文本分析模型的开发与优化。该数据集的出现不仅填补了金融领域语言理解任务的空白,还为金融科技领域的智能化应用提供了坚实的数据基础。
当前挑战
FLUE-FiQA数据集在解决金融领域语言理解问题时面临多重挑战。首先,金融文本具有高度的专业性和复杂性,术语繁多且语义多变,这对模型的语义理解能力提出了极高要求。其次,数据集的构建过程中,如何确保不同来源数据的质量与一致性是一个关键问题,尤其是在整合多个异构数据集时,数据格式的统一与标注的准确性成为主要障碍。此外,金融领域的动态性要求数据集能够及时更新以反映最新的市场信息,这对数据维护提出了持续性的挑战。这些问题的解决需要跨学科的合作与技术创新。
常用场景
经典使用场景
FLUE-FiQA数据集在金融领域的自然语言处理研究中扮演着重要角色,特别是在情感分析和问答系统方面。该数据集通过提供丰富的金融文本和查询对,使得研究人员能够训练和评估模型在理解和处理金融语言方面的能力。这种数据集的使用不仅限于学术研究,也广泛应用于金融科技公司的产品开发中,以提高自动化处理金融信息的能力。
衍生相关工作
基于FLUE-FiQA数据集,已经衍生出多项重要的研究工作,包括改进的金融文本情感分析模型和更高效的金融问答系统。这些研究不仅推动了金融领域自然语言处理技术的发展,也为相关领域的学术研究提供了新的视角和方法。例如,一些研究利用该数据集开发了新的深度学习模型,这些模型在理解复杂的金融术语和表达方面表现出色,极大地提升了金融文本处理的准确性和效率。
数据集最近研究
最新研究方向
在金融自然语言处理领域,SALT-NLP/FLUE-FiQA数据集的最新研究方向聚焦于提升金融文本的情感分析和问答系统的性能。随着金融市场的复杂性和数据量的增加,如何从海量的非结构化文本中提取有价值的信息成为了研究的热点。该数据集通过整合多种金融领域的数据,如情感分类、问答系统和命名实体识别,为研究者提供了一个全面的基准测试平台。近年来,基于深度学习的模型在该数据集上的应用取得了显著进展,特别是在处理金融术语和复杂句式方面。这些研究不仅推动了金融文本分析技术的发展,也为金融市场的实时监控和决策支持提供了强有力的工具。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

全国 1∶200 000 数字地质图(公开版)空间数据库

As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.

DataCite Commons 收录

中国区域地面气象要素驱动数据集 v2.0(1951-2020)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 70 年(1951~2020 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致,仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新,以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中,计划于 2025 年上半年发布,从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。

OpenDataLab 收录

MNLI

MNLI(Multi-Genre Natural Language Inference)是一个大规模的自然语言推理数据集,包含433,000多对句子对。该数据集用于评估模型在不同文本类型中的推理能力,包括新闻文章、小说、论坛帖子等。每个句子对都标注了三种可能的关系:蕴含(entailment)、矛盾(contradiction)和中性(neutral)。

cims.nyu.edu 收录