cresia

Hugging Face2025-06-06 更新2025-06-07 收录

下载链接：

https://huggingface.co/datasets/somosnlp-hackathon-2025/cresia

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了从主要西班牙语播客中收集的关于金融投资的信息。

创建时间：

2025-05-31

搜集汇总

数据集介绍

构建方式

在金融投资知识抽取领域，cresia数据集通过系统化采集西班牙语主流播客内容构建而成。其构建过程采用三重结构设计，每条数据包含金融指令问题、上下文背景信息及人工标注的专业回答，最终整合了超过3200条高质量金融投资问答对。

特点

该数据集显著特征在于其纯西班牙语金融语料库的专属性，所有内容均源自权威金融播客，确保术语准确性和实务相关性。数据采用指令-输入-输出的标准化结构，既保持金融知识的系统性呈现，又具备机器学习任务所需的结构化特征，为西班牙语金融NLP研究提供独特资源。

使用方法

研究人员可通过HuggingFace平台直接加载数据集进行模型训练，特别适配于金融领域问答系统和语言模型微调。使用时应遵循非投资建议的免责声明，建议结合西班牙国家证券市场委员会（CNMV）的投资者指导准则进行合规性验证。数据集配套提供经过LoRA微调的Qwen3-8B模型实例，用户可参照演示空间进行应用测试。

背景与挑战

背景概述

金融投资领域的信息处理正面临数字化转型的挑战，cresia数据集应运而生，由cresia.aillm团队于2025年构建。该数据集聚焦西班牙语播客中的投资知识提取，旨在通过自然语言处理技术解析复杂的金融咨询内容。其核心研究问题在于如何将非结构化的音频信息转化为结构化的问答对，为智能投顾系统提供高质量的训练数据，推动西班牙语金融科技领域的发展。

当前挑战

该数据集主要解决金融问答系统的领域挑战，包括专业术语的多义性解析、投资建议的合规性边界界定，以及西班牙语金融语境的文化适应性处理。构建过程中面临音频转文本的准确性保障、金融专家标注的一致性维护，以及超过3200条问答对的质量验证等操作性难题，这些因素共同增加了数据集构建的技术复杂度。

常用场景

经典使用场景

在金融科技与自然语言处理交叉领域，Cresia数据集为西班牙语金融投资问答系统提供了关键训练资源。其经典应用场景集中于构建智能投顾对话模型，通过3200余条结构化问答对，模型能够学习专业金融术语的语义表达与逻辑推理模式，特别适合用于微调大语言模型在伊比利亚美洲金融语境下的响应能力。

衍生相关工作

基于该数据集衍生的经典工作包括somosnlp-hackathon-2025团队开发的cresia_qwen3_8B_lora模型，该模型采用LoRA适配器技术对Qwen3-8B进行高效微调。后续研究多聚焦于西语金融文本的实体识别优化、风险提示生成机制，以及结合CNMV监管框架的合规性验证系统，形成了系列具有地域特色的金融NLP研究成果。

数据集最近研究