QueryNER

github2024-05-16 更新2024-05-31 收录

下载链接：

https://github.com/bltlab/query-ner

下载链接

链接失效反馈

官方服务：

资源简介：

用于电子商务查询分割的数据集，由Brandeis大学和eBay开发。

A dataset for e-commerce query segmentation, developed by Brandeis University and eBay.

创建时间：

2024-03-22

原始信息汇总

数据集概述

数据集名称: QueryNER

数据集描述: 该数据集用于查询分割，通过脚本从原始的Amazon ESCI数据集中提取并应用QueryNER偏移量，生成BIO CONLL风格的格式数据。

数据集处理

数据准备:

使用命令创建环境并安装依赖：
- conda create -yn queryner python=3.8
- conda activate queryner
- pip install -r requirements.txt
运行./prepare_dataset.sh脚本生成训练/验证/测试分割文件，存储于queryner_data目录。
运行./assemble_individual_annotators.sh脚本从测试集中生成每个注释者的单独注释文件，存储于individual_annotations目录。

数据集访问

HuggingFace链接:

引用信息

论文引用:

@misc{palenmichel2024queryner, title={QueryNER: Segmentation of E-commerce Queries}, author={Chester Palen-Michel and Lizzie Liang and Zhe Wu and Constantine Lignos}, year={2024}, eprint={2405.09507}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

QueryNER数据集的构建基于Amazon ESCI数据集的原始查询，通过应用QueryNER的偏移量，生成符合BIO CONLL风格的格式化数据。构建过程包括使用conda环境配置、安装依赖项，并通过运行`prepare_dataset.sh`脚本生成训练、验证和测试数据集，这些数据集将存储在`queryner_data`目录中。此外，通过运行`assemble_individual_annotators.sh`脚本，可以生成由三位标注者分别标注的测试集文件，这些文件存储在`individual_annotations`目录中。

特点

QueryNER数据集的主要特点在于其专注于电子商务查询的分割任务，采用BIO CONLL格式，便于实体识别和序列标注任务。数据集包含训练、验证和测试集，并且提供了三位标注者的独立标注文件，增强了数据集的多样性和可靠性。此外，数据集和相关模型已集成到HuggingFace平台，便于研究人员和开发者直接访问和使用。

使用方法

使用QueryNER数据集时，用户需先配置conda环境并安装必要的依赖项，随后通过运行提供的脚本生成数据集。生成的数据集文件位于`queryner_data`目录中，用户可根据需要进行训练、验证或测试。对于需要独立标注文件的研究，可通过运行`assemble_individual_annotators.sh`脚本获取。此外，数据集和相关模型也可通过HuggingFace平台直接访问，简化了数据集的使用流程。

背景与挑战

背景概述

QueryNER数据集由Chester Palen-Michel、Lizzie Liang、Zhe Wu和Constantine Lignos等人于2024年创建，专注于电子商务查询的分割任务。该数据集基于Amazon ESCI数据集，通过应用QueryNER偏移量生成BIO CONLL风格的格式数据，旨在解决电子商务领域中查询语句的命名实体识别问题。其核心研究问题是如何准确分割和识别查询中的关键实体，这对于提升搜索引擎的精确度和用户体验具有重要意义。QueryNER数据集的发布为自然语言处理领域，特别是电子商务查询分析，提供了宝贵的资源，推动了相关技术的进一步发展。

当前挑战

QueryNER数据集在构建过程中面临多项挑战。首先，从Amazon ESCI数据集中提取原始查询并应用QueryNER偏移量生成BIO CONLL风格的数据，这一过程需要精确的算法和高效的计算资源。其次，数据集的标注涉及三位不同的注释者，如何整合和处理这些不同的注释以确保数据的一致性和准确性是一个重要挑战。此外，电子商务查询的多样性和复杂性增加了命名实体识别的难度，要求模型具备高度的泛化能力和鲁棒性。最后，如何在保持数据质量的同时，确保数据集的规模和多样性，以支持广泛的实验和应用，也是该数据集面临的一个重要挑战。

常用场景

经典使用场景

QueryNER数据集在电子商务领域中被广泛应用于查询分割任务，其核心目标是通过对用户输入的查询进行命名实体识别（NER），从而将查询分解为更具语义意义的片段。这种分割不仅有助于提升搜索引擎的准确性，还能为推荐系统提供更为精细的用户意图分析。通过将查询分解为实体和非实体部分，系统能够更精确地理解用户的搜索意图，进而提供更相关的产品推荐和搜索结果。

实际应用

在实际应用中，QueryNER数据集被广泛用于电子商务平台的搜索引擎优化和个性化推荐系统。通过对用户查询的精细分割，系统能够更准确地匹配用户需求与产品信息，从而提高搜索结果的相关性和用户体验。此外，该数据集还被应用于广告投放系统，通过分析用户查询中的实体信息，实现更精准的广告定位和投放策略，进一步提升广告效果和用户满意度。

衍生相关工作

QueryNER数据集的发布催生了一系列相关研究和工作，特别是在自然语言处理和电子商务领域。许多研究者基于该数据集开发了新的命名实体识别模型，如BERT-based模型，这些模型在查询分割任务中表现出色。此外，QueryNER还激发了对查询语义解析的深入研究，推动了相关算法和技术的创新。这些衍生工作不仅丰富了自然语言处理的研究内容，还为电子商务领域的技术进步提供了重要支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集