gtfintechlab/finer-ord

Name: gtfintechlab/finer-ord
Creator: gtfintechlab
Published: 2024-09-10 05:28:50
License: 暂无描述

Hugging Face2024-09-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/gtfintechlab/finer-ord

下载链接

链接失效反馈

官方服务：

资源简介：

FiNER-开放研究数据集（FiNER-ORD）包含从webz.io收集的金融新闻文章的手动标注数据集（英文）。总共有47851篇新闻文章，每篇文章以JSON文档形式提供，包含文章来源、发布日期、作者和标题等元数据信息。从所有文章中随机抽取220篇进行手动标注，过滤掉空文章后，最终得到201篇文章。使用Doccano开源标注工具对人物（PER）、地点（LOC）和组织（ORG）实体进行手动标注。数据集分为训练集、验证集和测试集，标注过程由不同的标注者完成，以确保无偏结果。标注后的文章被分割成句子，并对每个句子进行分词处理，多词实体被分为多个标记（如PER_B表示人物实体的开始标记，PER_I表示中间标记）。数据集的详细统计数据可在数据分割部分查看。

FiNER-Open Research Dataset (FiNER-ORD) is an English manually annotated financial news article dataset collected from webz.io. In total, 47,851 news articles are included, each presented as a JSON document with metadata such as article source, publication date, author, and title. A random sample of 220 articles was selected from the full corpus for manual annotation, and 201 valid articles were finally retained after filtering out empty articles. The open-source annotation tool Doccano was utilized to manually annotate three entity types: Person (PER), Location (LOC), and Organization (ORG). The dataset is split into training, validation, and test subsets. To ensure unbiased results, the annotation work was completed by multiple independent annotators. Annotated articles are first segmented into sentences, and each sentence is then tokenized. Multi-word entities are split into multiple tokens (e.g., PER_B represents the beginning token of a person entity, while PER_I represents the inside token of the same entity). Detailed statistical information of the dataset can be found in the data split section.

提供机构：

gtfintechlab

原始信息汇总

数据集概述

数据集名称

名称: FiNER-Open Research Dataset (FiNER-ORD)

数据集详情

语言: 英语
类别: 单语种
大小: 1K<n<10K
任务: 命名实体识别
许可证: cc-by-nc-4.0

数据集内容

来源: 金融新闻文章，从webz.io收集
数量: 总共47851篇新闻文章，其中201篇用于手动标注
格式: JSON文档，包含文章来源、发布日期、作者和标题等元数据
标注: 使用Doccano工具手动标注人名(PER)、地点(LOC)和组织(ORG)实体

数据集结构

训练集大小: 1.08 MB
验证集大小: 135 KB
测试集大小: 336 KB
数据字段: doc_idx, sent_idx, gold_token, gold_label
标签集: {O: 0, PER_B: 1, PER_I: 2, LOC_B: 3, LOC_I: 4, ORG_B: 5, ORG_I: 6}

数据分割统计

FiNER-ORD	Train	Validation	Test
# Articles	135	24	42
# Tokens	80,531	10,233	25,957
# LOC entities	1,255	267	428
# ORG entities	3,440	524	933
# PER entities	1,374	222	466

联系方式

联系人: Agam Shah, Ruchit Vithani
邮箱: ashah482[at]gatech[dot]edu, rvithani6[at]gatech[dot]edu
GitHub: @shahagam4, @ruchit2801
网站: https://shahagam4.github.io/

搜集汇总

数据集介绍

构建方式

FiNER-ORD数据集的构建，始于对金融新闻文章的精心筛选与人工标注。该数据集的创建者从webz.io收集了英文金融新闻文章，经过随机抽样，选取了220篇文档进行人工标注。在排除空文档后，最终形成了包含201篇文章的数据集。标注过程采用Doccano工具，由两位标注者分别标注训练集和验证集，并由第三位标注者进行验证。测试集则由另一位标注者独立标注。在标注过程中，文章被拆分为句子，句子再被分词，并将多词实体分词为单独的标记，如PER_B代表一个人名实体的起始标记，PER_I代表中间标记。

特点

FiNER-ORD数据集以其在金融命名实体识别领域的专业性而独具特色。它是一个英文单语种数据集，包含了47851篇金融新闻文章的丰富语料。数据集经过人工标注，标注质量通过多轮校验得到保证，具有较高的标注一致性。此外，数据集采用JSON文档格式存储，其中包含了文章的来源、发布日期、作者和标题等元数据信息，为研究提供了额外的上下文。

使用方法

使用FiNER-ORD数据集时，用户可以依据数据集中的train、validation和test三个分割来训练、验证和测试模型。数据集以CoNLL 2003 NER共享任务格式存储，提供了文档ID、句子ID、原始标记以及分类标签等字段。用户可以通过HuggingFace的datasets库直接加载和利用该数据集。此外，该数据集还提供了IOB格式的变体，以满足不同的处理需求。

背景与挑战

背景概述

FiNER-Open Research Dataset（FiNER-ORD）是由gtfintechlab团队创建的一个金融新闻文章的手动注释数据集，旨在为金融领域命名实体识别任务提供基准。该数据集收集自webz.io的金融新闻文章，并在2024年通过Agam A. Shah等研究人员的努力完成。FiNER-ORD包含47851篇新闻文章，其中220篇被随机抽取进行手动注释，最终形成包含201篇文章的数据集。该数据集的创建，为金融领域的信息提取和实体识别研究提供了重要资源，对相关领域的学术研究和应用开发具有重要影响。

当前挑战

在构建FiNER-ORD数据集的过程中，研究人员面临了多项挑战。首先，金融新闻文章中包含大量专业术语和复杂结构，这为实体的识别和标注带来了困难。其次，为了确保注释的质量和一致性，需要多位标注者进行独立标注，并通过第三方验证，这增加了数据集构建的复杂性和成本。此外，数据集的构建还需考虑避免标注过程中的偏见，确保标注者对弱监督框架的标签函数一无所知。在应用层面，如何将FiNER-ORD有效地应用于模型训练和性能评估，以推动金融命名实体识别技术的进步，也是当前面临的一项挑战。

常用场景

经典使用场景

在金融领域的信息提取任务中，FiNER-ORD数据集的经典使用场景在于对金融新闻文章进行命名实体识别，以提取人名、地点名和组织名等关键信息，从而便于后续的分析与处理。该数据集的标注精细，为模型的训练与评估提供了可靠的基准。

实际应用

在实际应用中，FiNER-ORD数据集可被用于构建金融信息分析系统，支持金融机构对新闻进行快速、准确的文本挖掘，以便及时掌握市场动态，进行风险监控和决策支持。

衍生相关工作

基于FiNER-ORD数据集，研究者们已衍生出一系列相关工作，如金融事件检测、情感分析以及更复杂的金融文本理解任务，进一步拓宽了金融领域自然语言处理的研究范围和应用深度。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集