brand-match-iter11-labels

Hugging Face2026-03-25 更新2026-03-26 收录

下载链接：

https://huggingface.co/datasets/asbabiy/brand-match-iter11-labels

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集包含POI（兴趣点）与品牌匹配的成对标注数据（Brand Match），是Realytics公司主动学习管线的第11次迭代成果。数据集旨在训练模型（嵌入器和交叉编码器）判断特定物理地点（组织/POI）是否属于给定目录单元类型。第11次迭代新增约4.3万对样本，重点关注阿拉伯语、中日韩语系及扩展拉丁语系的困难负样本（Track A & B），并通过PG卡片信息增强（地址+类别）降低噪声。数据集总行数达1,279,584条。数据以Parquet格式提供，核心字段包括：`organization_id`（POI ID）、`unit_id`（候选目录单元ID）、`label`（匹配标签）、`organization_json`（组织文本信息）、`unit_candidate_json`（候选单元文本信息）和`score_embed`（嵌入相似度分数）。标注过程采用上一迭代模型挖掘困难负样本和高不确定性对，特别针对F1值低于0.98的语言（印尼语、波斯语、越南语、印地语、日语、意大利语、乌尔都语、葡萄牙语），使用`gemini-3.1-pro-preview`模型配合专业标注提示模板完成标注。

创建时间：

2026-03-25

原始信息汇总

Brand Match Iteration 11 Labels 数据集概述

数据集描述

本数据集包含用于POI（兴趣点）到品牌匹配（Brand Match）的成对标签。它代表了Realytics主动学习流程的第11次迭代。该数据集的目标是训练模型（嵌入器和交叉编码器），以判断一个特定的物理地点（组织/POI）是否属于给定的目录单元类型。

第11次迭代的变更

新增了约4.3万个新配对，包括针对阿拉伯语、中日韩语系和扩展拉丁语系的关键信号硬负例（Track A & B）。
数据生成使用了PG卡片资料（地址+类别）富集，以减少噪声。
总行数：1,279,584。

数据格式

数据集以Parquet格式提供，包含以下核心列：

organization_id (UInt64): POI的ID。
unit_id (UInt64): 候选目录单元的ID。
label (UInt8): 匹配则为1，不匹配则为0。
organization_json (String): 用于标注的组织文本资料。
unit_candidate_json (String): 用于标注的单元候选者文本资料。
score_embed (Float64): 嵌入相似度分数。

标注方法

候选对是通过使用前一次迭代的模型提取硬负例和高不确定性配对来挖掘的。我们特别针对F1分数低于0.98的语言（印度尼西亚语、波斯语、越南语、印地语、日语、意大利语、乌尔都语、葡萄牙语）。配对由gemini-3.1-pro-preview使用专业的POI→目录单元身份标注提示（brand_match_pairwise.j2）进行标注。

基本信息

支持语言: 英语、阿拉伯语、日语、中文、越南语、葡萄牙语、印度尼西亚语、印地语、波斯语、意大利语、乌尔都语。
标签: realytics, brand-match, organization-matching, point-of-interest。
许可证: other。

5,000+

优质数据集

54 个

任务类型

进入经典数据集