CNER-UAV
收藏arXiv2024-03-19 更新2024-06-21 收录
下载链接:
https://github.com/zhhvvv/CNER-UAV
下载链接
链接失效反馈官方服务:
资源简介:
CNER-UAV是由香港城市大学计算机科学系创建的细粒度中文地址实体识别数据集,专为无人机配送系统中的地址解析任务设计。该数据集包含约12,000个标注样本,涵盖五种不同类别,数据来源于美团无人机配送系统,经过严格的数据清洗和去标识化处理。创建过程中,数据集通过人类专家和大型语言模型(如GPT-3.5和ChatGLM)进行标注,形成了三个子集。CNER-UAV主要用于解决无人机配送系统中地址解析的精确性和效率问题,是目前中国最全面、最新的地址数据集之一。
CNER-UAV is a fine-grained Chinese address entity recognition dataset developed by the Department of Computer Science, City University of Hong Kong, tailored specifically for address parsing tasks in unmanned aerial vehicle (UAV) delivery systems. The dataset contains approximately 12,000 annotated samples spanning five distinct categories, with its source data originating from the Meituan UAV delivery system, and has been subjected to rigorous data cleaning and de-identification processing. During its creation, the dataset was annotated by human experts and large language models (such as GPT-3.5 and ChatGLM), yielding three subsets. CNER-UAV is primarily intended to address the accuracy and efficiency issues of address parsing in UAV delivery systems, and is currently among the most comprehensive and up-to-date address datasets in China.
提供机构:
香港城市大学计算机科学系
创建时间:
2024-03-10
搜集汇总
数据集介绍

构建方式
CNER-UAV数据集的构建过程遵循了图1所示的流程图。首先,从历史订单日志中解析出用户的订单信息,然后识别和提取地址,应用预定义规则筛选相关地址。接下来,对数据进行采样和标注,包括人工标注和GPT-3.5、ChatGLM等大型语言模型的标注。最终得到三个子集:CNER-UAV-H、CNER-UAV-G和CNER-UAV-L,分别对应人工标注、GPT-3.5标注和ChatGLM标注。为了更有效地比较LLMs和人工标注,我们为人工标注和LLMs标注制定了以下标准:尊重用户输入和POI信息;优先标注最高概率实体;过滤模糊或无法定位的地址。此外,我们还考虑了中文语言模式,设计了正则化公式将标注的地址与BOI标签相关联,形成标注数据。
特点
CNER-UAV数据集是一个细粒度的中文命名实体识别数据集,专为无人机配送任务而设计。该数据集包含五个类别,包括建筑物、单元、楼层、房间和其他,使得对中文地址可以进行细粒度分割。数据集包含约12,000个标注样本。原始数据来源于美团的无人机配送系统,代表了实际的数据分布。经过仔细处理原始数据后,我们使用人工标注者和LLMs(包括GPT-3.5和ChatGLM)对数据集进行了标注,形成了三个子集:CNER-UAV-H、CNER-UAV-G和CNER-UAV-L。数据集的统计信息表明,在“建筑物”类别中,GPT标注比人工标注少约7.47%;而在“单元”类别中,GPT标注比人工标注多约9.76%。这些差异表明,GPT在标注某些“单元”标签时可能存在遗漏,这可能是由于相关知识的缺乏或其内在的局限性。实验结果表明,人工标注者在标注细粒度中文NER数据集方面优于GPT-3.5,特别是在更细粒度的标签上。此外,所有语言模型在人工标注数据集的每个类别中都实现了超过90%的准确率,这证明了我们提出的CNER-UAV数据集的有效性和实用性。
使用方法
CNER-UAV数据集的使用方法包括以下步骤:1)数据预处理:将原始数据按照上述构建方法进行处理,得到三个子集;2)模型训练:使用Transformer-based模型(如BERT、ELECTRA、RoBERTa等)在数据集上进行训练;3)模型评估:使用标准性能指标(如准确率和F1分数)对模型进行评估,评估指标包括类别级别和总体级别;4)结果分析:对实验结果进行分析,比较人工标注和LLMs标注的效果,以及不同模型在各个类别上的性能表现。
背景与挑战
背景概述
在无人机配送系统中,地址解析模块利用NER将原始用户地址转换为精确位置,而此类任务需要特定的细粒度中文NER数据集进行训练。CNER-UAV数据集正是在这样的背景下诞生的,它专门为无人机配送任务设计,包含五个类别,涵盖从建筑物到房间的详细信息,为NER模型提供了全面的训练和评估数据。该数据集的数据来源于美团无人机配送系统,经过严格的数据清洗和脱敏处理,以确保隐私和数据完整性。CNER-UAV数据集的创建填补了中文细粒度地址NER数据集的空白,对于无人机配送系统的地址解析任务具有重要意义。
当前挑战
CNER-UAV数据集的构建过程中,研究人员面临的主要挑战包括:1)如何从实际无人机配送系统中收集和筛选出高质量的地址数据;2)如何确保数据集的隐私和完整性;3)如何利用LLMs进行高效的数据标注,并评估其标注质量。在解决领域问题方面,CNER-UAV数据集面临的挑战是如何将原始地址文本精确地分割为建筑物、单元、楼层和房间等细粒度实体,以满足无人机配送系统对地址解析的精确性要求。在构建过程中,研究人员需要解决如何从无人机配送系统中提取地址信息、如何进行数据清洗和脱敏处理、以及如何利用LLMs进行高效的数据标注等问题。
常用场景
经典使用场景
CNER-UAV数据集主要用于无人驾驶飞行器(UAV)配送系统中地址解析任务。该数据集涵盖了从建筑物到房间的五个类别,使得模型可以对中文地址进行细粒度分割。数据集包含约12,000个标注样本,来源于真实世界的UAV配送系统,并通过人类专家和大型语言模型进行标注。CNER-UAV数据集可用于训练和评估命名实体识别(NER)模型,特别是在UAV配送场景下的地址解析任务。
衍生相关工作
CNER-UAV数据集的发布促进了相关领域的研究。研究者可以利用该数据集进行NER模型的训练和评估,探索LLM在数据标注中的应用,以及UAV配送系统中地址解析模块的优化。此外,CNER-UAV数据集还可以作为其他相关任务的基础,例如地址标准化、地址匹配等,为UAV配送系统的研究和应用提供支持。
数据集最近研究
最新研究方向
CNER-UAV数据集的研究主要集中在无人机配送系统中地址解析任务的细粒度中文命名实体识别。该数据集包含五个类别,涵盖了从建筑物到房间的详细信息,使得模型能够进行更精细的地址分割。CNER-UAV数据集的构建过程严谨,数据来源于真实的无人机配送系统,并经过严格的数据清洗和脱敏处理,以确保隐私和数据完整性。该数据集包含约12,000个注释样本,并经过了人工专家和大型语言模型(如GPT-3.5和ChatGLM)的注释。通过实验评估经典命名实体识别模型在该数据集上的性能,并提供了深入的分析。研究结果表明,虽然大型语言模型可以作为辅助注释工具,但在无人机配送系统中,它们无法完全取代人工注释进行细粒度的中文命名实体识别。
相关研究论文
- 1Can LLM Substitute Human Labeling? A Case Study of Fine-grained Chinese Address Entity Recognition Dataset for UAV Delivery香港城市大学计算机科学系 · 2024年
以上内容由遇见数据集搜集并总结生成



