Search query dataset

github2024-05-09 更新2024-05-31 收录

下载链接：

https://github.com/wongnai/wongnai-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

包含50万个从搜索查询中提取的独特词汇，这些词汇通过算法和人工评审进行了标注，用于词汇分割任务，旨在通过尽可能分割最长的食品词汇来提高搜索系统的精确度。

This dataset comprises 500,000 unique terms extracted from search queries, which have been annotated through a combination of algorithmic processes and manual review. It is specifically designed for the task of lexical segmentation, with the objective of enhancing the precision of search systems by segmenting the longest possible food-related terms.

创建时间：

2018-06-29

原始信息汇总

数据集概述

1. 搜索查询数据集

描述: 包含500,000个独特的搜索查询词汇，用于泰语自然语言处理研究。这些词汇通过算法和人工评审进行了词分割任务的标注。
文件:
- search/labeled_queries_by_algo.txt: 500K词汇的算法标注列表。
- search/labeled_queries_by_judges.txt: 10K词汇的人工评审标注列表。
- search/food_dictionary.txt: 400K食品词汇列表，用于辅助算法标注。
使用: 可用于训练和验证词分割模型。

2. 评论数据集

描述: 包含餐厅评论和评分，评分范围为1至5星，共5个等级。
文件:
- 主要文件位于Kaggle竞赛。
- 备份文件: review/review_dataset.zip。
使用: 原始用途为评论评分预测任务，也可用于文本分类基准测试。

搜集汇总

数据集介绍

构建方式

该数据集从用户生成的内容中提取了50万条独特的搜索查询词汇，这些词汇经过算法和人工评审的双重标注，以支持泰语自然语言处理中的分词任务。构建过程中，采用了分词最长食品词汇的原则，以确保搜索系统的高精度。此外，数据集还包含一个40万条食品词汇的字典，用于辅助标注过程。

特点

该数据集的主要特点在于其大规模的词汇量和双重标注机制，确保了数据的高质量和多样性。此外，数据集中的词汇来源于用户生成内容，涵盖了广泛的语境，可能包含与主题无关的词汇，这为模型训练提供了更真实的语言环境。

使用方法

用户可以利用`labeled_queries_by_algo.txt`文件进行自定义分词模型的训练，通过将其划分为训练集和验证集，并使用`labeled_queries_by_judges.txt`文件进行模型评估。这种使用方法旨在提升模型在泰语分词任务中的表现，并为自然语言处理研究提供丰富的数据资源。

背景与挑战

背景概述

Search query dataset是由Wongnai公司发布的一个专注于泰语自然语言处理（NLP）研究的数据集。该数据集包含了从用户生成内容（UGC）中提取的50万条独特的搜索查询词汇，这些词汇经过算法和人工标注，用于词分割任务。其核心研究问题是如何在搜索系统中实现高精度的词分割，特别是针对食品词汇的分割。该数据集的创建旨在推动泰语NLP领域的发展，尤其是为词分割模型的训练和评估提供了丰富的资源。

当前挑战

Search query dataset在构建过程中面临的主要挑战包括：首先，从用户生成内容中提取的词汇可能包含与主题无关的内容，这增加了数据清洗和标注的复杂性。其次，为了实现高精度的词分割，算法和人工标注的标准必须高度一致，这对标注质量和算法性能提出了较高要求。此外，该数据集的应用场景主要集中在搜索系统中，如何在实际应用中保持高精度的词分割仍然是一个技术难题。

常用场景

经典使用场景

Search query dataset 在自然语言处理（NLP）领域，尤其是泰语处理中，具有经典的使用场景。该数据集包含了50万个从用户搜索查询中提取的独特词汇，这些词汇通过算法和人工标注进行了分词任务的标记。研究者可以利用 `labeled_queries_by_algo.txt` 文件进行自定义分词模型的训练，并通过 `labeled_queries_by_judges.txt` 文件进行模型评估，从而提升搜索系统的精确度。

解决学术问题

该数据集解决了在泰语自然语言处理中常见的分词问题，尤其是在搜索系统中如何高效地进行词汇分割。通过提供大规模的标注数据，研究者能够训练出更为精确的分词模型，从而提高搜索系统的性能。这对于推动泰语NLP研究具有重要意义，尤其是在处理用户生成内容（UGC）时，如何准确地进行词汇分割成为一个关键的学术挑战。

衍生相关工作

基于Search query dataset，许多相关研究工作得以展开。例如，研究者利用该数据集开发了更为精确的泰语分词算法，并将其应用于搜索引擎优化。此外，该数据集还激发了在泰语NLP领域的其他研究，如文本分类、情感分析等。这些衍生工作不仅提升了泰语处理的技术水平，也为相关领域的研究提供了宝贵的数据资源。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集