SerbianEmailsNER

Hugging Face2025-06-03 更新2025-06-04 收录

下载链接：

https://huggingface.co/datasets/goranagojic/SerbianEmailsNER

下载链接

链接失效反馈

官方服务：

资源简介：

SynthMail-NER数据集包含300封合成生成的电子邮件，这些邮件使用拉丁文和西里尔文两种脚本，平均分配在四种真实世界的通信类型中：私人到私人、私人到商业、商业到商业和商业到私人。这些邮件为命名实体识别任务提供了注释，使用了BIO2标记方案，并遵循了CoNLL-2002格式。实体注释和邮件内容通过GPT-4o模型生成，并经过手动后处理以保证高注释质量。

创建时间：

2025-05-30

原始信息汇总

数据集概述

基本信息

名称: SynthMail-NER
许可证: Apache-2.0
任务类别: 标记分类 (Token Classification)
语言: 塞尔维亚语 (sr)

数据集内容

数据量: 300 封合成生成的电子邮件
脚本类型: 拉丁字母和西里尔字母
邮件类型分布:
- 私人对私人 (private-to-private)
- 私人对企业 (private-to-business)
- 企业对企业 (business-to-business)
- 企业对私人 (business-to-private)
标注任务: 命名实体识别 (NER)
标注方案: BIO2 标记方案
数据格式: CoNLL-2002 格式

生成与处理

生成方式: 使用 GPT-4o 模型生成
生成指导:
- 结构化提示模板
- 针对每种邮件类型的少量示例
后处理: 手动后处理以确保标注质量和一致性

实体信息

实体类型数量: 13 种
分布可视化: 包含实体分布图 (graph_entities.png)

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，针对塞尔维亚语命名实体识别任务的数据资源相对稀缺，SerbianEmailsNER数据集采用大语言模型生成技术构建。该数据集通过GPT-4o模型生成300封合成邮件，均匀覆盖私人对私人、私人对企业、企业对企业及企业对私人四种真实通信场景，并采用结构化提示模板和少样本示例指导生成过程。所有文本均以拉丁和西里尔双文字形式呈现，经过人工后处理确保标注质量，遵循BIO2标注体系和CoNLL-2002格式规范。

使用方法

研究者可借助该数据集评估塞尔维亚语命名实体识别模型的性能，特别适用于跨文字脚本的泛化能力测试。数据集采用标准化token列表与BIO2标签对齐的格式，可直接接入HuggingFace框架中的TokenClassification管道。每个样本包含唯一ID、文字类型标识、原始邮件文本、分词后的token序列及对应标签，支持端到端模型训练与验证。后续v3版本将扩展更多实体类型，为学术研究提供持续增强的数据支撑。

背景与挑战

背景概述

塞尔维亚邮件命名实体识别数据集（SerbianEmailsNER）由Gorana Gojić等研究人员于2025年创建，旨在推动塞尔维亚语自然语言处理技术的发展。该数据集聚焦于电子邮件文本中的命名实体识别任务，覆盖拉丁与西里尔双文字符体系，包含私人及商业往来信件的四类真实场景。通过合成生成与精细标注，该资源为低资源语言的信息抽取研究提供了重要基础，显著提升了巴尔干地区语言技术工具的开发水平。

当前挑战

该数据集核心挑战在于解决塞尔维亚语作为低资源语言在命名实体识别中的标注稀缺问题，特别是双文字符体系带来的实体表达多样性。构建过程中需克服合成数据生成的质量控制难题，包括实体类型的一致性校验、标点符号的边界处理，以及跨书信类型的实体分布平衡，同时需确保GPT-4o生成内容与人工修正间的协同优化。

常用场景

经典使用场景

在塞尔维亚语自然语言处理研究中，该数据集主要应用于命名实体识别模型的性能评估与对比实验。研究者通过其平衡的拉丁与西里尔文字文本，能够系统验证模型在不同书写体系下的泛化能力，尤其针对邮件文本中十三类实体标签的识别效果进行精细化测评。

解决学术问题

该数据集有效解决了低资源语言命名实体识别研究中标注数据匮乏的核心问题。通过合成生成的高质量标注语料，为塞尔维亚语NLP社区提供了基准评估资源，显著促进了跨文字体系（拉丁/西里尔）的实体识别模型开发，并推动了隐私保护技术中敏感信息自动检测的研究进展。

实际应用

在实际应用层面，该数据集为塞尔维亚语商务邮件处理系统提供了关键训练资源。其标注的银行账户、税号、个人身份证号等敏感实体，可直接应用于企业邮件自动化匿名处理系统，助力金融机构和法律合规部门实现数据隐私保护，同时支撑跨语言商务通信工具的智能化开发。

数据集最近研究