five

Hilbot-FI Dataset: A Low-Resource Financial Intent Classification Dataset

收藏
DataCite Commons2026-05-05 更新2026-05-07 收录
下载链接:
https://zenodo.org/doi/10.5281/zenodo.20019097
下载链接
链接失效反馈
官方服务:
资源简介:
The Hilbot-FI Dataset is a low-resource financial intent classification dataset designed for evaluating NLP models under realistic short-text and class-imbalanced conditions. The dataset contains 1,525 total samples across 33 intent labels, with predefined train/test splits of 1,220 training samples and 305 test samples. The processed vocabulary contains 542 unique tokens. The dataset combines structured financial-record-derived queries with conversational financial intent patterns, reflecting the mixed nature of real-world financial assistant inputs. It is intended for research on financial conversational systems, decision-support chatbots, class imbalance, short-text classification, and data-centric evaluation of classical, neural, hybrid, and transformer-based NLP models. The release includes the complete dataset, predefined train/test splits, intent patterns, a data dictionary, label definitions, citation metadata, and license information.

Hilbot-FI 数据集(Hilbot-FI Dataset)是一款面向真实短文本与类别不平衡场景的低资源金融意图分类数据集,用于评估自然语言处理(Natural Language Processing, NLP)模型。 该数据集共包含1525条样本,覆盖33个意图标签,预设了训练集与测试集的划分方案:训练样本1220条,测试样本305条。经预处理的词汇表包含542个唯一Token(Token)。 该数据集将结构化金融记录衍生查询与对话式金融意图模式进行融合,反映了真实金融助手输入的混合特性。本数据集可用于金融对话系统、决策支持聊天机器人、类别不平衡任务、短文本分类,以及经典模型、神经网络模型、混合架构模型与基于Transformer(Transformer)的自然语言处理模型的以数据为中心的评估研究。 本次发布包含完整数据集、预设训练/测试集划分方案、意图模式、数据字典、标签定义、引用元数据以及许可信息。
提供机构:
Zenodo
创建时间:
2026-05-05
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作