legal-entity-name-validation
收藏Hugging Face2025-12-08 更新2025-12-09 收录
下载链接:
https://huggingface.co/datasets/IRI2070/legal-entity-name-validation
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个包含超过10万条记录的波斯语数据集,专为自然语言处理(NLP)任务设计,特别是用于验证公司名称的接受或拒绝。数据集通过GPT-4o-mini模型生成,包含13类名称变体规则,用于训练和评估模型。数据集以CSV格式提供,每条记录包含候选名称、注册名称和标签。该数据集公开可用,旨在支持研究人员和开发者在智能模型开发中的学习和研究。
创建时间:
2025-12-07
原始信息汇总
📊 数据集概述:Company Name Acceptance Dataset
✨ 基本信息
- 数据集名称:Company Name Acceptance Dataset
- 创建者:机器生成
- 语言:波斯语 (fa)
- 多语言性:单语
- 任务类别:文本分类
- 任务ID:可接受性分类
- 数据来源:原始
- 数据规模:100,000 < n < 1,000,000 条样本
- 许可协议:CC BY 4.0
- 标签:公司名称,自然语言处理,波斯语,合成数据
🎯 目标与用途
- 开发用于公司名称的 接受/拒绝 模型。
- 分析商业领域中名称的相似性和差异性。
- 辅助智能系统进行 品牌和公司名称验证。
- 为 自然语言处理和机器学习 领域的研究人员提供公共参考。
- 应用于 文本相似度 和 名称验证 模型训练。
- 用于 品牌名称检查 项目。
- 支持 语义匹配 领域的研究。
- 开发用于 公司和品牌注册 的智能系统。
🛠️ 数据生成
- 由 GPT-4o-mini 模型生成。
- 基于多种规则生成正负样本,共定义了 13个类别,每个类别代表一种特定的名称变化或相似性类型。
📚 类别规则(1个接受类,12个拒绝类)
| 类别编号 | 英文名称 | 描述 | 示例 |
|---|---|---|---|
| 0 | abbreviation_shortening | 拼写或书写的微小变化 | صنایع غذایی مهین → صنایع غذایی میهن |
| 1 | activity_change | 业务领域变更 | صنایع غذایی میهن → صنایع لبنی میهن |
| 2 | adjective_removal | 形容词删除 | صنایع غذایی میهن → صنایع میهن |
| 3 | domain_similarity | 相似业务领域变更 | صنایع غذایی میهن → صنایع خوراکی میهن |
| 4 | generic_word | 添加通用词(如“公司”) | صنایع غذایی میهن → شرکت صنایع غذایی میهن |
| 5 | minor_spelling_variations | 使用缩写或简称 | فناوری برتر تهران → فن برتر تهران |
| 6 | morphological_variation | 词法/形态变化 | صنایع غذایی میهن → صنایع غذای میهن |
| 7 | no_rule | 无特定规则的正样本 | صنایع غذایی میهن → صنایع دارویی میهن |
| 8 | prefix_suffix | 添加后缀/前缀 | صنایع غذایی میهن → صنایع غذایی میهن نوین |
| 9 | singular_plural | 单数/复数变化 | صنایع غذایی میهن → صنعت غذایی میهن |
| 10 | synonym | 同义词替换 | صنایع غذایی میهن → صنایع خوراکی میهن |
| 11 | word_order | 词语顺序变化 | صنایع غذایی میهن → میهن صنایع غذایی |
| 12 | word_removal | 删除一个词语 | صنایع غذایی میهن → غذایی میهن |
📂 数据集结构
- 格式:CSV
- 特征:
candidate:原始公司名称(字符串类型)。registered:修改后或相似的名称样本(字符串类型)。label:应用的规则类别(13个平衡类别之一,int32类型)。
- 数据划分与样本数:
- 训练集:87,673 条样本。
- 验证集:10,959 条样本。
- 测试集:10,960 条样本。
- 总数据集大小:109,592 条样本。
🌍 可访问性与备注
- 该数据集为 公开可用。
- 基于 MCI Academy 深度自然语言处理课程 构建。
- 该数据集为 合成数据,建议在敏感项目中同时使用真实数据。
- 数据质量专为教育和研究目的而设计。
搜集汇总
数据集介绍

构建方式
在波斯语自然语言处理领域,公司名称验证数据集的构建体现了人工智能生成数据的精密流程。该数据集依托GPT-4o-mini模型,通过系统化规则生成了超过十万条记录。构建过程依据十三种语义与形态变化类别,精心设计了正负样本,涵盖了从拼写变体、词序调整到同义词替换等多种语言现象。每一数据条目均包含原始名称、候选名称及对应的类别标签,确保了数据在文本分类任务中的结构规范性与逻辑一致性。
特点
该数据集专注于波斯语公司名称的接受度分类,其核心特点在于覆盖了丰富的语言变异场景。通过十三种平衡的规则类别,数据集系统性地捕捉了名称相似性与差异性,包括缩写、词形变化、领域调整等多种维度。作为单语波斯语资源,它填补了特定语言背景下品牌验证任务的空白,且规模适中,适用于模型训练与评估。数据以CSV格式组织,清晰标注候选名称、注册名称及类别标签,便于直接应用于机器学习流程。
使用方法
该数据集主要服务于文本分类与语义匹配任务,尤其适用于公司名称验证模型的开发。研究人员可将其划分为训练、验证与测试集,用于训练深度神经网络以判别名称的接受与否。在实际应用中,它能够支撑品牌名称检查系统,辅助自动化公司注册流程中的名称审核。使用者需注意数据为合成生成,建议在关键场景中结合真实数据验证,以保障模型在实际部署中的鲁棒性与可靠性。
背景与挑战
背景概述
在自然语言处理领域,实体名称验证是一项关键任务,尤其对于波斯语等资源相对稀缺的语言而言,高质量数据集的构建显得尤为重要。Legal-Entity-Name-Validation数据集由伊朗移动运营商旗下的Hamrah-e-Aval Academy于2024年发布,旨在解决企业名称的自动接受或拒绝分类问题。该数据集包含超过10万条由GPT-4o-mini模型生成的波斯语公司名称对,覆盖了13种语义和形态变化类别,为波斯语NLP研究提供了重要的基准资源。其创建不仅推动了波斯语文本相似度计算和语义匹配技术的发展,也为企业注册、品牌保护等实际应用场景提供了算法支持,填补了该语言在实体验证任务上的数据空白。
当前挑战
该数据集致力于解决企业名称验证这一具体领域问题,其核心挑战在于准确区分细微的语义和形态差异,例如缩写、同义词替换或词序变化,这些变化可能仅导致名称的轻微修改,却需要模型具备深度的语言理解能力以判断其有效性。在构建过程中,主要挑战源于合成数据的生成质量:尽管采用了先进的生成模型,但自动生成的样本可能无法完全捕捉真实世界企业名称的复杂性和多样性,存在与自然语言分布偏差的风险。此外,数据集的类别平衡虽经设计,仍需确保各类别样本在语义上的代表性和准确性,以避免模型学习到虚假的统计规律,这对后续模型的泛化性能提出了更高要求。
常用场景
经典使用场景
在自然语言处理领域,特别是在波斯语文本分类任务中,legal-entity-name-validation数据集为验证企业名称的接受度提供了基准。该数据集通过模拟13种不同的名称变体规则,如拼写变异、词序调整或同义词替换,构建了丰富的正负样本对,从而支持模型学习识别合法与非法企业名称之间的细微差别。其经典应用场景聚焦于训练和评估文本相似度模型,以自动化判断候选名称是否与已注册名称冲突或可接受,为品牌保护和企业注册流程的智能化奠定基础。
解决学术问题
该数据集有效解决了自然语言处理中语义匹配和名称验证的学术挑战。通过提供大规模、结构化的波斯语企业名称数据,它填补了该语言在商业实体识别领域的数据空白,促进了跨语言NLP研究的均衡发展。在学术意义上,数据集支持探索文本分类模型在复杂规则下的泛化能力,如处理形态变异或领域相似性等问题,从而推动语义理解技术在低资源语言中的创新应用,并为自动化法律合规性检查提供理论依据。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,主要集中在波斯语NLP模型的优化与扩展。例如,研究者利用其训练基于Transformer的文本分类器,以提升企业名称验证的准确率;同时,该数据也被用于跨语言迁移学习实验,探索多语言模型在低资源场景下的适应性。此外,部分工作聚焦于数据增强技术,通过合成类似规则的数据集,进一步推动了语义相似度计算和实体匹配算法在商业领域的应用创新。
以上内容由遇见数据集搜集并总结生成



