TMID
收藏arXiv2023-12-08 更新2024-06-21 收录
下载链接:
https://github.com/emnlpTMID/emnlpTMID.github.io
下载链接
链接失效反馈官方服务:
资源简介:
TMID是由蚂蚁集团和莫纳什大学合作创建的商标侵权检测数据集,包含17,365对商家注册和商标数据,直接来源于全球最大的电子商务和数字支付平台之一——支付宝。该数据集不仅包括商家注册信息和商标相关辅助信息,还涵盖了中国商标法的相关法规。数据集的创建旨在通过提供高质量的训练数据,帮助开发自动检测商标侵权的工具,从而减少电子商务平台因商标侵权造成的财务损失。
TMID is a trademark infringement detection dataset co-created by Ant Group and Monash University. It contains 17,365 pairs of merchant registration and trademark data, which are directly sourced from Alipay, one of the world's largest e-commerce and digital payment platforms. This dataset not only includes merchant registration information and trademark-related auxiliary information, but also covers relevant regulations under the Chinese Trademark Law. The dataset was developed to help build automated trademark infringement detection tools by providing high-quality training data, thereby reducing the financial losses incurred by e-commerce platforms due to trademark infringement.
提供机构:
蚂蚁集团
创建时间:
2023-12-08
搜集汇总
数据集介绍

构建方式
在电子商务领域,商标侵权检测是保障知识产权合规性的关键环节。TMID数据集的构建依托于全球领先的电子商务与数字支付平台支付宝的真实商户注册数据,通过多阶段流程确保数据的代表性与质量。首先,从平台数据库中提取商户注册信息,并利用网络爬虫技术从企业网站获取商户的股东、法律代表及行业类别等辅助数据。同时,从中国国家知识产权局等官方渠道收集受保护商标的标识信息及其辅助细节。数据标注过程采用召回导向的侵权检测集成方法,从超过两百万对注册文档与商标中筛选出17,365对高风险案例,由两名经过培训的标注员进行初步标注,并通过法律专家对分歧案例进行最终裁定,标注者间一致性达到89.6%。此外,法律专家还手动为192个随机样本标注了完整的推理轨迹,以揭示侵权判断的逻辑步骤。
特点
TMID数据集在商标侵权检测领域展现出独特优势,其核心特点在于数据的全面性与真实性。数据集不仅包含商户注册名称、服务描述、标语等注册数据,还整合了商户的股东信息、行业类别等辅助数据,以及商标的中英文名称、类型和行业分类,辅以中国商标法的相关法规条文。这种多源信息的融合为模型提供了丰富的上下文,支持复杂的法律推理任务。数据集中包含2,836个侵权案例和14,694个非侵权案例,覆盖了电子商务中的典型侵权场景。尤为突出的是,数据集中包含了由法律专家手动标注的推理轨迹,这些轨迹以自然语言形式逐步呈现侵权判断的逻辑过程,为研究模型与人类专家在推理对齐性方面提供了宝贵资源。
使用方法
TMID数据集适用于训练和评估商标侵权检测模型,尤其适合探索法律推理与大型语言模型的结合。在使用时,研究者可将商户注册数据、商标信息及相关法规作为输入,构建分类或生成任务。例如,通过微调BERT或ChatGLM等预训练模型,利用数据集中提供的多字段信息提升侵权检测的准确率;也可将推理轨迹作为附加输入,以增强模型的可解释性和性能。数据集的划分包括训练集、验证集和测试集,便于进行模型训练与评估。此外,该数据集支持对辅助信息(如商户股东数据或商标行业类别)进行消融研究,以分析不同数据源对模型性能的影响。对于零样本或小样本学习,GPT-3.5等模型可结合推理轨迹进行提示学习,但需注意自动生成的推理轨迹可能存在完整性与正确性不足的问题。
背景与挑战
背景概述
TMID数据集由蚂蚁集团与蒙纳士大学的研究团队于2023年共同构建,旨在解决电子商务平台中商标侵权检测的核心研究问题。随着电子商务的蓬勃发展,平台因商户注册信息侵犯商标权而面临巨额经济损失,传统人工审核方式效率低下且成本高昂。该数据集直接从全球领先的电子支付平台支付宝获取真实商户注册数据,结合中国商标法条文与专家标注,首次系统性地整合了商户上下文信息、商标辅助数据及法律规则,为法律推理与合规自动化研究提供了高质量资源。其推出显著推动了商标保护与人工智能交叉领域的发展,为基于大语言模型的复杂法律任务奠定了实证基础。
当前挑战
TMID数据集所针对的商标侵权检测任务,本质上是一项需融合多源信息与法律条文推理的复杂自然语言处理挑战。它不仅要求模型精准识别文本相似性,还需深入理解商户服务内容、行业类别及商业关联等语境,并依据法律规则进行逻辑推断,这超越了传统的图像或文本相似度匹配范畴。在数据集构建过程中,研究人员面临数据完整性不足的难题,部分商标辅助字段覆盖率较低,且从公开渠道爬取的商户股东信息等上下文数据存在缺失。此外,标注高质量法律推理轨迹耗费巨大人力,仅能通过随机采样获取少量样本,限制了基于推理轨迹的深入研究。
常用场景
经典使用场景
在电子商务平台的知识产权保护领域,TMID数据集为商标侵权检测提供了关键的研究基础。该数据集通过整合商户注册信息、商标数据及法律条文,构建了一个多模态的推理环境,使得研究者能够深入探索法律合规性自动判定的机制。其经典应用场景在于训练和评估大型语言模型在复杂法律推理任务中的表现,特别是在理解商户背景、商标相似性及法律规则关联性方面,为自动化侵权检测系统的开发提供了标准化测试平台。
解决学术问题
TMID数据集有效解决了商标侵权检测中缺乏高质量标注数据的瓶颈问题,为法律自然语言处理领域注入了新的研究动力。它使得学者能够系统探究法律规则与上下文信息的融合机制,突破以往仅关注商标视觉或文本相似性的简化研究范式。该数据集通过提供专家标注的推理轨迹,促进了模型可解释性研究,帮助揭示人类与机器在法律推理过程中的对齐差异,从而推动更可靠、透明的法律智能系统的发展。
衍生相关工作
围绕TMID数据集,学术界衍生出一系列聚焦法律推理与商标保护的研究工作。这些研究主要探索如何利用大型语言模型融合法律条文与上下文信息进行侵权判定,并深入分析模型推理轨迹与人类专家思维的对齐程度。例如,基于TMID的实证研究揭示了辅助信息对模型性能的提升作用,以及人类标注的推理轨迹在增强模型可解释性方面的价值。这些工作进一步推动了法律人工智能领域在数据构建、模型评估及可解释性方面的理论进展。
以上内容由遇见数据集搜集并总结生成



