deepparse_address_mutations_comb_3
收藏Hugging Face2024-12-11 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/jarredparrett/deepparse_address_mutations_comb_3
下载链接
链接失效反馈官方服务:
资源简介:
Deepparse Address Mutations (Combinations of 3)数据集提供了大量的地址变异数据,旨在提升地址匹配任务的性能。数据集通过将多种变异器应用于100,000个标注地址,生成了模拟现实世界中不一致性、拼写错误和格式差异的变异地址。变异过程包括正向变异(保持语义正确性)和负向变异(模拟错误),并且每条地址最多应用三个变异器。数据集分为训练、验证和测试集,分别包含4,517,388、968,012和968,012个样本。
创建时间:
2024-12-11
原始信息汇总
Deepparse Address Mutations (Combinations of 3)
数据集概述
该数据集 deepparse_address_mutations_comb_3 是一个用于地址匹配任务的地址变异数据集,基于 Deepparse Address Dataset 生成。通过将变异器应用于100,000个带注释的地址,生成模拟现实世界不一致性、拼写错误和格式差异的变异地址。
数据集详情
变异过程
变异过程通过组合最多三个变异器应用于每个地址。变异器分为两类,并可应用于以下输入字段:
- Positive Mutations: 保持语义正确性或等价性的变异。
- Negative Mutations: 模拟现实世界不一致性的错误。
变异过程采用了将deepparse值映射到变异值的方法,部分变异共享键时可能会有变异血统的丢失,主要用于调试,不会影响训练。
变异字段
| token | mutation_name |
|---|---|
| StreetNumber | STREET_NUMBER |
| StreetName | STREET_NAME, STREET_NAME_QUALIFER, STREET_NAME_DIRECTION |
| Municipality | MUNICIPALITY |
| Province | PROVINCE |
| Unit | UNIT |
| Orientation | ORIENTATION |
| GeneralDelivery | GENERAL_DELIVERY |
| PostalCode | POSTAL_CODE |
数据集划分
数据集分为训练、验证和测试子集,通过采样15%的变异结果生成。
数据集大小
- 训练集: 4,517,388个样本,1,935,013,670字节
- 验证集: 968,012个样本,414,709,629字节
- 测试集: 968,012个样本,414,636,298字节
- 下载大小: 907,533,903字节
- 数据集总大小: 2,764,359,597字节
变异计数
以下是部分变异计数:
| mutations | count |
|---|---|
| [STREET_NAME__MUTATION__POSITIVE] | 243467 |
| [PROVINCE__MUTATION__NEGATIVE] | 238329 |
| [STREET_NAME__MUTATION__NEGATIVE] | 238089 |
| [MUNICIPALITY__MUTATION__NEGATIVE] | 238062 |
| [STREET_NAME__SWAP__NEGATIVE] | 237863 |
| [POSTAL_CODE__MUTATION__NEGATIVE] | 237682 |
| [STREET_NUMBER__MUTATION__NEGATIVE] | 204515 |
| [POSTAL_CODE__REMOVAL__POSITIVE] | 154431 |
| [POSTAL_CODE__REMOVAL__POSITIVE, STREET_NAME__MUTATION__POSITIVE] | 152127 |
| [MUNICIPALITY__MUTATION__POSITIVE, STREET_NAME__MUTATION__POSITIVE] | 123854 |
| [POSTAL_CODE__MUTATION__POSITIVE, STREET_NAME__MUTATION__POSITIVE] | 123354 |
| [PROVINCE__MUTATION__POSITIVE, STREET_NAME__MUTATION__POSITIVE] | 122815 |
| [PROVINCE__REMOVAL__POSITIVE, STREET_NAME__MUTATION__POSITIVE] | 122421 |
| [STREET_NAME__MUTATION__POSITIVE, STREET_NAME__SWAP__POSITIVE] | 122166 |
| [STREET_NAME__SWAP__POSITIVE] | 109251 |
| [PROVINCE__REMOVAL__POSITIVE] | 98062 |
| [POSTAL_CODE__MUTATION__POSITIVE] | 98021 |
| [MUNICIPALITY__MUTATION__POSITIVE] | 97841 |
| [PROVINCE__MUTATION__POSITIVE] | 97292 |
| [PROVINCE__MUTATION__NEGATIVE, STREET_NAME__SWAP__NEGATIVE] | 89509 |
| [POSTAL_CODE__MUTATION__NEGATIVE, STREET_NAME__MUTATION__NEGATIVE] | 89440 |
| [MUNICIPALITY__MUTATION__NEGATIVE, STREET_NAME__SWAP__NEGATIVE] | 89337 |
| [MUNICIPALITY__MUTATION__NEGATIVE, POSTAL_CODE__MUTATION__NEGATIVE] | 89326 |
| [STREET_NAME__MUTATION__NEGATIVE, STREET_NAME__SWAP__NEGATIVE] | 89268 |
| [MUNICIPALITY__MUTATION__NEGATIVE, STREET_NAME__MUTATION__NEGATIVE] | 89260 |
| [POSTAL_CODE__MUTATION__NEGATIVE, STREET_NAME__SWAP__NEGATIVE] | 89216 |
| [PROVINCE__MUTATION__NEGATIVE, STREET_NAME__MUTATION__NEGATIVE] | 89082 |
| [POSTAL_CODE__MUTATION__NEGATIVE, PROVINCE__MUTATION__NEGATIVE] | 89062 |
| [MUNICIPALITY__MUTATION__NEGATIVE, PROVINCE__MUTATION__NEGATIVE] | 88820 |
| [POSTAL_CODE__REMOVAL__POSITIVE, STREET_NAME__SWAP__POSITIVE] | 82758 |
| [MUNICIPALITY__MUTATION__NEGATIVE, STREET_NUMBER__MUTATION__NEGATIVE] | 78874 |
| [STREET_NAME__SWAP__NEGATIVE, STREET_NUMBER__MUTATION__NEGATIVE] | 78772 |
| [STREET_NAME__MUTATION__NEGATIVE, STREET_NUMBER__MUTATION__NEGATIVE] | 78575 |
| [PROVINCE__MUTATION__NEGATIVE, STREET_NUMBER__MUTATION__NEGATIVE] | 78348 |
| [POSTAL_CODE__MUTATION__NEGATIVE, STREET_NUMBER__MUTATION__NEGATIVE] | 78315 |
| [MUNICIPALITY__MUTATION__POSITIVE, POSTAL_CODE__REMOVAL__POSITIVE] | 71704 |
| [POSTAL_CODE__MUTATION__POSITIVE, POSTAL_CODE__REMOVAL__POSITIVE] | 71457 |
| [POSTAL_CODE__REMOVAL__POSITIVE, PROVINCE__MUTATION__POSITIVE] | 71158 |
| [MUNICIPALITY__MUTATION__POSITIVE, STREET_NAME__SWAP__POSITIVE] | 65319 |
| [PROVINCE__MUTATION__POSITIVE, STREET_NAME__SWAP__POSITIVE] | 64804 |
| [POSTAL_CODE__MUTATION__POSITIVE, STREET_NAME__SWAP__POSITIVE] | 64713 |
| [PROVINCE__REMOVAL__POSITIVE, STREET_NAME__SWAP__POSITIVE] | 64321 |
| [MUNICIPALITY__MUTATION__POSITIVE, PROVINCE__REMOVAL__POSITIVE] | 56857 |
| [POSTAL_CODE__MUTATION__POSITIVE, PROVINCE__REMOVAL__POSITIVE] | 56803 |
| [PROVINCE__MUTATION__POSITIVE, PROVINCE__REMOVAL__POSITIVE] | 56265 |
| [POSTAL_CODE__MUTATION__POSITIVE, PROVINCE__MUTATION__POSITIVE] | 56241 |
| [MUNICIPALITY__MUTATION__POSITIVE, POSTAL_CODE__MUTATION__POSITIVE] | 56219 |
| [MUNICIPALITY__MUTATION__POSITIVE, PROVINCE__MUTATION__POSITIVE] | 56173 |
| [PROVINCE__REMOVAL__POSITIVE, STREET_NAME__MUTATION__POSITIVE, STREET_NAME__SWAP__POSITIVE] | 30181 |
| [PROVINCE__MUTATION__POSITIVE, STREET_NAME__MUTATION__POSITIVE, STREET_NAME__SWAP__POSITIVE] | 29527 |
| [POSTAL_CODE__MUTATION__POSITIVE, STREET_NAME__MUTATION__POSITIVE, STREET_NAME__SWAP__POSITIVE] | 29403 |
| [POSTAL_CODE__REMOVAL__POSITIVE, STREET_NAME__MUTATION__POSITIVE, STREET_NAME__SWAP__POSITIVE] | 29331 |
| [POSTAL_CODE__MUTATION__POSITIVE, POSTAL_CODE__REMOVAL__POSITIVE, STREET_NAME__MUTATION__POSITIVE] | 28828 |
| [MUNICIPALITY__MUTATION__POSITIVE, PROVINCE__REMOVAL__POSITIVE, STREET_NAME__MUTATION__POSITIVE] | 28809 |
| [MUNICIPALITY__MUTATION__POSITIVE, POSTAL_CODE__MUTATION__POSITIVE, STREET_NAME__MUTATION__POSITIVE] | 28736 |
| [POSTAL_CODE__REMOVAL__POSITIVE, PROVINCE__MUTATION__POSITIVE, STREET_NAME__MUTATION__POSITIVE] | 28660 |
| [PROVINCE__MUTATION__POSITIVE, PROVINCE__REMOVAL__POSITIVE, STREET_NAME__MUTATION__POSITIVE] | 28553 |
| [POSTAL_CODE__MUTATION__POSITIVE, PROVINCE__REMOVAL__POSITIVE, STREET_NAME__MUTATION__POSITIVE] | 28542 |
| [MUNICIPALITY__MUTATION__POSITIVE, POSTAL_CODE__REMOVAL__POSITIVE, STREET_NAME__MUTATION__POSITIVE] | 28507 |
| [MUNICIPALITY__MUTATION__POSITIVE, PROVINCE__MUTATION__POSITIVE, STREET_NAME__MUTATION__POSITIVE] | 28451 |
| [MUNICIPALITY__MUTATION__POSITIVE, STREET_NAME__MUTATION__POSITIVE, STREET_NAME__SWAP__POSITIVE] | 28201 |
| [POSTAL_CODE__MUTATION__POSITIVE, PROVINCE__MUTATION__POSITIVE, STREET_NAME__MUTATION__POSITIVE] | 28173 |
| [UNIT__MUTATION__NEGATIVE] | 24988 |
| [POSTAL_CODE__MUTATION__POSITIVE, PROVINCE__MUTATION__POSITIVE, STREET_NAME__SWAP__POSITIVE] | 17823 |
| [MUNICIPALITY__MUTATION__POSITIVE, POSTAL_CODE__REMOVAL__POSITIVE, STREET_NAME__SWAP__POSITIVE] | 17766 |
| [MUNICIPALITY__MUTATION__POSITIVE, POSTAL_CODE__MUTATION__POSITIVE, STREET_NAME__SWAP__POSITIVE] | 17725 |
| [PROVINCE__MUTATION__POSITIVE, PROVINCE__REMOVAL__POSITIVE, STREET_NAME__SWAP__POSITIVE] | 17647 |
| [POSTAL_CODE__REMOVAL__POSITIVE, PROVINCE__MUTATION__POSITIVE, STREET_NAME__SWAP__POSITIVE] | 17600 |
| [MUNICIPALITY__MUTATION__POSITIVE, PROVINCE__MUTATION__POSITIVE, STREET_NAME__SWAP__POSITIVE] | 17584 |
| [POSTAL_CODE__MUTATION__POSITIVE, POSTAL_CODE__REMOVAL__POSITIVE, STREET_NAME__SWAP__POSITIVE] | 17557 |
| [POSTAL_CODE__MUTATION__POSITIVE, PROVINCE__REMOVAL__POSITIVE, STREET_NAME__SWAP__POSITIVE] | 17549 |
| [MUNICIPALITY__MUTATION__POSITIVE, PROVINCE__REMOVAL__POSITIVE, STREET_NAME__SWAP__POSITIVE] | 17461 |
| [STREET_NAME__MUTATION__POSITIVE, UNIT__MUTATION__POSITIVE] | 16008 |
| [MUNICIPALITY__MUTATION__NEGATIVE, STREET_NAME__MUTATION__NEGATIVE, STREET_NAME__SWAP__NEGATIVE] | 15170 |
| [POSTAL_CODE__MUTATION__NEGATIVE, PROVINCE__MUTATION__NEGATIVE, STREET_NAME__MUTATION__NEGATIVE] | 15165 |
| [POSTAL_CODE__MUTATION__NEGATIVE, STREET_NAME__MUTATION__NEGATIVE, STREET_NAME__SWAP__NEGATIVE] | 15156 |
| [MUNICIPALITY__MUTATION__NEGATIVE, PROVINCE__MUTATION__NEGATIVE, STREET_NAME__MUTATION__NEGATIVE] | 15151 |
| [MUNICIPALITY__MUTATION__POSITIVE, PROVINCE__MUTATION__POSITIVE, PROVINCE__REMOVAL__POSITIVE] | 15128 |
| [POSTAL_CODE__MUTATION__POSITIVE, PROVINCE__MUTATION__POSITIVE, PROVINCE__REMOVAL__POSITIVE] | 15103 |
| [MUNICIPALITY__MUTATION__POSITIVE, POSTAL_CODE__MUTATION__POSITIVE, PROVINCE__MUTATION__POSITIVE] | 15032 |
| [MUNICIPALITY__MUTATION__NEGATIVE, POSTAL_CODE__MUTATION__NEGATIVE, PROVINCE__MUTATION__NEGATIVE] | 15025 |
| [MUNICIPALITY__MUTATION__POSITIVE, POSTAL_CODE__MUTATION__POSITIVE, POSTAL_CODE__REMOVAL__POSITIVE] | 14960 |
| [MUNICIPALITY__MUTATION__NEGATIVE, POSTAL_CODE__MUTATION__NEGATIVE, STREET_NAME__MUTATION__NEGATIVE] | 14944 |
| [MUNICIPALITY__MUTATION__NEGATIVE, POSTAL_CODE__MUTATION__NEGATIVE, STREET_NAME__SWAP__NEGATIVE] | 14897 |
| [POSTAL_CODE__MUT |
搜集汇总
数据集介绍

构建方式
该数据集通过结合多种变异器对100,000条标注地址进行处理,生成了一系列模拟真实世界中不一致性、拼写错误和格式差异的地址变体。变异过程采用了最多三个变异器的组合,分为两类:保持语义正确性的正向变异和模拟错误的负向变异。这些变异器应用于地址的各个字段,如街道号码、街道名称、市镇、省份、单元、邮政编码等。通过这种方式,数据集捕捉了地址匹配任务中常见的变异模式,从而增强了模型的鲁棒性。
使用方法
该数据集适用于地址匹配和地址解析任务的模型训练与评估。研究者可以使用该数据集来训练和验证模型在处理地址变异时的鲁棒性。数据集提供了多种变异类型的标注,使得模型能够学习如何识别和纠正地址中的常见错误。此外,数据集的分层结构和详细的变异统计信息为研究者提供了丰富的实验资源,帮助他们优化模型性能并探索不同变异模式对模型表现的影响。
背景与挑战
背景概述
地址匹配任务在现代信息处理中占据重要地位,尤其是在物流、地理信息系统(GIS)和数据清洗等领域。`deepparse_address_mutations_comb_3`数据集由GRAAL-Research团队创建,旨在通过模拟真实世界中的地址变异,提升地址匹配模型的鲁棒性。该数据集基于100,000条标注地址,通过组合多种变异器生成地址变体,涵盖了街道号、街道名、城市、省份、邮政编码等多个字段。这些变异分为正向变异(保持语义正确性)和负向变异(模拟错误和不一致性),以全面覆盖地址匹配中的常见挑战。数据集的构建不仅为地址匹配任务提供了丰富的训练资源,还为相关领域的研究提供了新的实验平台。
当前挑战
该数据集的构建面临多重挑战。首先,地址变异的多样性和复杂性使得数据生成过程需要精心设计,以确保变异既符合语义逻辑,又能模拟真实世界中的错误。其次,变异器的组合可能导致变异间的冲突,尤其是在共享字段的情况下,这增加了数据处理的复杂性。此外,数据集的规模庞大,包含超过450万条训练样本,这对存储和计算资源提出了较高要求。最后,如何有效评估模型在处理这些变异地址时的性能,也是一个亟待解决的问题。这些挑战不仅考验数据集的设计,也对地址匹配模型的鲁棒性和泛化能力提出了更高的要求。
常用场景
经典使用场景
该数据集主要用于地址匹配任务的改进,特别是在处理地址中的变异和错误时。通过模拟真实世界中的地址不一致性、拼写错误和格式差异,该数据集能够帮助模型学习如何在复杂的地址变异中进行准确的匹配。其经典使用场景包括地址解析、地址标准化以及地址相似度计算等任务,尤其是在需要处理大量地址数据的应用中。
解决学术问题
该数据集解决了地址匹配领域中的一个关键问题,即如何在存在多种变异和错误的情况下,仍然能够准确地识别和匹配地址。通过提供丰富的地址变异样本,该数据集使得研究人员能够开发出更加鲁棒和精确的地址匹配算法。这对于提升地址解析和匹配技术的准确性和可靠性具有重要意义,尤其是在地理信息系统(GIS)和物流管理等领域。
实际应用
在实际应用中,该数据集可以广泛应用于物流、电子商务、地理信息系统等领域。例如,在物流管理中,地址匹配的准确性直接影响到包裹的配送效率和客户满意度。通过使用该数据集训练的模型,可以有效处理地址中的变异和错误,从而提高地址解析的准确性,减少配送错误和延误。此外,在电子商务中,准确的地址匹配也有助于提升用户体验和订单处理效率。
数据集最近研究
最新研究方向
在地址解析与匹配领域,`deepparse_address_mutations_comb_3`数据集的最新研究方向主要集中在通过模拟真实世界中的地址变异,提升地址匹配模型的鲁棒性和准确性。该数据集通过结合多种正向和负向的变异策略,生成大量地址变体,从而帮助模型更好地应对实际应用中的拼写错误、格式不一致等问题。研究者们正利用这一数据集探索如何通过深度学习技术,特别是自然语言处理和序列建模,来提高地址解析的精度和泛化能力。此外,该数据集的应用还涉及物流、地理信息系统(GIS)等领域,推动了相关技术的实际落地与优化。
以上内容由遇见数据集搜集并总结生成



