ICE-PIXIU

arXiv2024-04-16 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2403.06249v2

下载链接

链接失效反馈

官方服务：

资源简介：

ICE-PIXIU整合了ICE-INTENT模型和ICE-FLARE基准，用于双语金融分析。它独特地集成了多种中文任务，以及翻译和原创的英文数据集，丰富了双语金融建模的广度和深度。该数据集提供了对多种模型变体的无限制访问，一个包含多样跨语言和多模态指令数据的大量编译，以及一个包含专家注释的评估基准，包括10个NLP任务，20个双语特定任务，总计95k数据集。

ICE-PIXIU integrates the ICE-INTENT model and the ICE-FLARE benchmark for bilingual financial analysis. It uniquely incorporates a variety of Chinese tasks, alongside translated and original English datasets, to enhance the breadth and depth of bilingual financial modeling. This dataset offers unrestricted access to diverse model variants, a large-scale curated collection of heterogeneous cross-lingual and multimodal instruction data, and an expert-annotated evaluation benchmark. The benchmark encompasses 10 natural language processing (NLP) tasks and 20 bilingual-specific tasks, with a total of 95,000 data instances.

创建时间：

2024-03-11

搜集汇总

数据集介绍

构建方式

在金融自然语言处理领域，双语数据资源的稀缺性长期制约着模型的跨语言泛化能力。ICE-PIXIU数据集的构建过程体现了系统化、多源融合的设计理念。研究团队从真实金融场景中收集了40个原始数据集，涵盖分类、抽取、预测、生成、推理及翻译六类自然语言处理任务，总计包含118.5万条原始数据。通过专家精心设计的多样化提示模板，将原始数据转化为60.4万条指令微调样本，并构建了包含9.5万条样本的评估基准。数据构建特别注重中英文数据的平衡与互补，不仅整合了原生中文金融数据集，还通过高质量机器翻译将英文数据集转化为中文版本，同时保留了部分原始英文数据，以增强模型对双语金融文本的理解与生成能力。

特点

ICE-PIXIU数据集的核心特征在于其开创性的双语统一架构与任务的全面性。该数据集首次在金融领域实现了中文与英文任务的深度融合，覆盖了情感分析、语义匹配、事件检测、关系抽取、股票预测、文本摘要等15项具体金融任务，形成了跨语言、多任务的完整评估体系。其数据构成具有鲜明的层次性，依据标签来源划分为分类标签数据、抽取标签数据、翻译文本数据、英文原始数据及领域外数据五种类型，确保了训练数据的多样性与专业性。尤为突出的是，数据集提供了经过专家标注的高质量指令提示，并创新性地引入了领域外任务，用以检验模型的泛化能力与鲁棒性，为金融大语言模型的训练与评估设立了新的标杆。

使用方法

该数据集为金融大语言模型的开发与评估提供了端到端的解决方案。研究人员可利用其大规模的指令微调数据对预训练模型进行监督微调，以提升模型在双语金融场景下的任务执行能力。具体而言，ICE-FIND子集包含的60余万条指令样本，支持以QLoRA等高效参数微调技术进行模型适配。对于模型性能的量化评估，则可使用ICE-FLARE基准测试集，该测试集涵盖了21项中英文具体任务，并提供了精确率、召回率、F1值、ROUGE等多种评估指标。使用时应遵循数据集中定义的JSON格式加载指令数据，并依据任务类型选择合适的评估指标进行零样本或少样本测试，从而系统性地衡量模型在分类、抽取、预测等核心金融自然语言处理任务上的双语性能与跨语言一致性。

背景与挑战

背景概述

ICE-PIXIU数据集由云南大学、曼彻斯特大学、武汉大学等机构的研究团队于2023年联合构建，旨在解决金融大语言模型在双语处理能力上的不足。该数据集聚焦于中英文双语金融分析，通过整合ICE-INTENT模型与ICE-FLARE评估基准，涵盖了分类、抽取、推理、预测等10项自然语言处理任务及20项双语特定任务，总计包含95k数据样本。其核心研究问题在于打破金融领域语言壁垒，推动跨语言金融自然语言处理技术的发展，为全球金融数据分析提供了统一的框架与资源支持。

当前挑战

ICE-PIXIU面临的挑战主要体现在两个方面：其一，在领域问题层面，金融文本具有专业术语密集、语义复杂多变的特点，且中英文金融语境存在显著差异，模型需同时应对语言转换与领域知识融合的双重难题；其二，在构建过程中，数据收集需覆盖多样化的真实金融场景，而高质量双语数据的稀缺性、专业标注的高成本以及翻译任务中文化差异与术语一致性的保持，均为数据集构建带来了实质性障碍。此外，评估基准需确保跨语言任务的一致性，这对标注规范与评估体系设计提出了更高要求。

常用场景

经典使用场景

在金融自然语言处理领域，ICE-PIXIU数据集为双语大语言模型提供了跨语言指令微调和评估的统一框架。该数据集通过整合中文原生任务、英文原始数据及其翻译版本，构建了涵盖分类、抽取、预测、推理等多元任务的指令数据集，为模型在双语金融场景下的性能优化奠定了数据基础。其经典应用场景在于支持ICE-INTENT模型在中文和英文金融文本上的协同训练，使模型能够同时处理两种语言的金融新闻、财报、社交媒体文本等复杂语料，从而在情感分析、事件检测、实体识别等任务中展现卓越的跨语言理解能力。

衍生相关工作

ICE-PIXIU数据集衍生了一系列重要的相关研究工作，推动了金融双语大语言模型生态的发展。以ICE-INTENT模型为核心，研究者进一步探索了多模态金融数据融合、低资源语言扩展等方向。基于该数据集构建的评估基准ICE-FLARE被广泛用于对比各类金融大语言模型的跨语言性能，激发了如跨语言对抗训练、领域自适应微调等新方法的提出。同时，数据集的开源特性促进了社区协作，衍生出针对特定金融子领域（如信贷风险评估、货币政策分析）的精细化数据集和模型变体。这些工作共同丰富了金融自然语言处理的技术图谱，为后续研究提供了可扩展的框架和可靠的性能参照。

数据集最近研究