econ-ie-spanish-ner

Hugging Face2025-11-10 更新2025-11-11 收录

下载链接：

https://huggingface.co/datasets/Flaglab/econ-ie-spanish-ner

下载链接

链接失效反馈

官方服务：

资源简介：

Econ-IE (西班牙语NER)数据集是EconBERTA原始英文语料库的翻译和清洗版本，专注于经济学领域的影响评估命名实体识别。这个数据集的创建是为了让西班牙语领域的特定NER模型能够进行基准测试，适用于科学和政策导向的文本。

The Econ-IE (Spanish NER) dataset is a translated and cleaned version of the original English corpus for EconBERTa, focused on named entity recognition for impact assessment within the economics domain. This dataset was developed to support benchmarking of domain-specific Spanish NER models, and it is tailored for scientific and policy-oriented texts.

创建时间：

2025-11-10

原始信息汇总

Econ-IE (Spanish NER) 数据集概述

数据集简介

Econ-IE (Spanish NER) 数据集是原始 EconBERTA 语料库的翻译和清理版本，专注于经济学领域的影响评估命名实体识别任务。该西班牙语版本旨在为西班牙语科学和政策导向文本提供领域特定的NER模型基准测试。

数据集构成

数据格式：每个样本包含分词后的句子和对应的BIO格式NER标签
数据字段：
- tokens：字符串列表，表示分词后的句子
- ner_tags：整数列表，表示BIO格式的实体标签编码

数据划分

划分	句子数量
训练集	5,267
验证集	1,129
测试集	1,129
总计	7,525

实体标签体系

采用BIO标注方案，包含以下实体类型：

B-coreference / I-coreference：共指
B-effect_size / I-effect_size：效应大小
B-intervention / I-intervention：干预措施
B-outcome / I-outcome：结果
B-population / I-population：人群
O：非实体

语言信息

主要语言：西班牙语 (es)

数据创建过程

使用GPT-4o模型将原始英文语料库完整翻译为西班牙语
通过定制提示工程保持BIO标注方案和实体标签一致性
进行后处理脚本开发和手动验证以确保翻译准确性和标签一致性
对原始数据集进行去重和完整性检查，创建分层划分

应用场景

经济学和社会政策领域的命名实体识别模型训练与评估
使用领域特定语料库进行英语到西班牙语的跨语言迁移实验
Sci-BETO或Sci-RoBERTa等科学西班牙语编码器的微调和基准测试

许可证信息

许可证类型：Creative Commons Attribution 4.0 International (CC BY 4.0)
许可证链接：https://creativecommons.org/licenses/by/4.0/

搜集汇总

数据集介绍

构建方式

在经济学领域，该数据集通过GPT-4o模型对原始英文EconBERTA语料进行自动化翻译，构建过程注重保留BIO标注方案和实体标签的一致性。翻译后采用后处理脚本修正标签传播错误，并进行人工抽样验证，确保西班牙语文本的准确性和结构对齐。此外，对原始数据中的重复样本进行了去重处理，并重新划分了分层数据集，以优化实体分布的平衡性。

特点

该数据集聚焦于经济学影响评估领域，包含5,268条训练句和1,129条验证及测试句，总计7,526条标注样本。其核心特征在于采用BIO标注体系，定义了核心参考、效应规模、干预措施、结果和人群五类实体，支持西班牙语领域特定命名实体识别任务。数据经过严格清洗，消除了翻译过程中的冗余和错误，为跨语言模型评估提供了高质量基准。

使用方法

在应用层面，该数据集适用于训练和评估西班牙语经济学文本的命名实体识别模型，可通过HuggingFace库直接加载使用。用户可利用其分层划分进行模型微调，尤其适合与Sci-BETO等科学领域编码器结合，开展跨语言迁移实验。数据字段包含词元列表和整数编码的NER标签，通过元数据可便捷获取标签映射关系，支持领域内研究复现和模型比较。

背景与挑战

背景概述

在经济学实证研究领域，命名实体识别技术对政策评估文献的结构化分析具有关键价值。Econ-IE西班牙语命名实体识别数据集作为EconBERTA语料库的跨语言衍生版本，由研究团队通过GPT-4o模型进行精准转译与优化重构，专注于经济影响评估领域的实体标注体系。该数据集构建了包含核心指代、效应规模、干预措施、结果指标和人口特征的五类实体标注框架，为西班牙语经济学文本的智能解析提供了首个专业标注基准，显著推动了跨语言领域自适应研究的发展进程。

当前挑战

该数据集致力于解决经济学领域文本中专业实体识别的核心难题，包括政策干预措施与实证结果间的语义关联捕捉、专业术语与通用词汇的边界划分等复杂场景。在构建过程中面临三重技术挑战：神经机器翻译导致的实体边界错位问题，需要设计特殊提示机制确保BIO标注结构与译文对齐；跨语言转译引发的语义漂移现象，需通过后处理算法进行实体一致性校验；原始语料存在的样本重复与数据泄漏风险，要求建立分层去重与分布均衡的重划分策略来保证模型评估效度。

常用场景

经典使用场景

在经济学实证研究领域，该数据集为西班牙语命名实体识别任务提供了专业标注资源。其核心应用聚焦于从经济政策文献中自动识别干预措施、效应规模、目标人群等关键要素，通过序列标注技术构建领域自适应的实体抽取模型。这种标注体系显著提升了经济文本结构化分析的效率，为后续因果推断研究奠定数据基础。

实际应用

该数据集在政策评估与学术研究领域具有重要实践价值。政府机构可借助其训练的模型快速定位政策文件中的关键参数，智库研究人员能系统分析跨国经济干预案例。金融机构亦能通过实体抽取技术监测西班牙语市场的政策动向，为投资决策提供数据支撑，实现学术成果向现实应用的有机转化。

衍生相关工作

基于该数据集衍生的经典研究包括跨语言经济实体识别模型的构建，如利用迁移学习将英语EconBERTA知识迁移至西班牙语场景。多项工作探索了Sci-BETO等专业语言模型在该数据集上的微调效果，推动了领域自适应方法的发展。这些研究不仅验证了数据集的可靠性，更拓展了多语言经济文本智能处理的学术边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集