query-classifier-dataset

Hugging Face2025-06-03 更新2025-06-04 收录

下载链接：

https://huggingface.co/datasets/melique/query-classifier-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

土耳其语查询分类数据集，包含两个分类：关键字查询和语义查询。数据集适用于文本分类、推荐系统和自然语言理解项目，提供了3188个示例，支持CSV或🤗 Dataset格式。

创建时间：

2025-05-29

原始信息汇总

数据集概述

基本信息

数据集名称: Turkish Query Classification Dataset
语言: 土耳其语 (Turkish)
任务类别: 文本分类 (text-classification)
数据集大小: 120600 字节
下载大小: 58843 字节
示例数量: 3188
大小类别: 1K<n<10K

数据集结构

特征 (Features):
- query: 字符串类型 (string)，用户搜索查询
- label: 字符串类型 (string)，查询类型 (keyword 或 semantic)
拆分 (Splits):
- train: 3188 个示例，120600 字节

类别描述

keyword: 短且直接的查询，包含关键词（例如：“Gece Gelen”, “Ozan Kılıç”）
semantic: 概念性或特定类型的查询（例如：“2020 yapımı dram filmleri”, “Bilimkurgu”）

使用示例

python from datasets import load_dataset

dataset = load_dataset("melique/query-classifier-dataset")

print(dataset["train"][0])

{query: Gece Gelen, label: keyword}

许可证

许可证类型: 仅限研究和教育用途，商业用途需联系数据所有者。

贡献者

melique (主要上传者)
kaantiftikci

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，土耳其语查询分类数据集的构建采用了人工标注与语言学规则相结合的方法。数据来源于真实搜索引擎查询日志，经过脱敏处理后，由语言学家根据预定义的分类体系对每条查询进行精细标注，确保语义边界的准确性。标注过程采用双盲校验机制，有效保障了标签一致性与数据质量，最终形成包含3188条样本的平衡语料库。

特点

该数据集显著特点在于其针对土耳其语的语言特性进行了深度优化，全面覆盖关键词检索与语义查询两大核心类别。每个样本均包含原始查询文本及其对应分类标签，数据格式采用标准化CSV结构，兼容主流机器学习框架。语料规模适中且类别分布均衡，既满足模型训练需求又避免冗余，特别适合研究土耳其语的语言现象与分类任务特性。

使用方法

研究人员可通过Hugging Face数据集库直接加载该资源，使用load_dataset函数即可获取结构化数据。典型应用场景包括训练文本分类模型、优化搜索引擎查询理解模块，以及构建土耳其语自然语言处理基准测试体系。数据加载后可直接投入模型训练流程，建议采用交叉验证策略以充分利用有限样本，同时注意遵循非商业使用许可协议。

背景与挑战

背景概述

土耳其语查询分类数据集由melique和kaantiftikci等研究者构建，专注于自然语言处理领域的文本分类任务。该数据集旨在区分土耳其语搜索查询的两种语义类型：关键词查询和语义查询，为推荐系统和搜索引擎优化提供语言学基础。其构建反映了对非英语语言处理资源的需求增长，特别是在多语言信息检索和语义理解方向，为土耳其语NLP社区提供了重要的基准资源。

当前挑战

该数据集核心挑战在于解决土耳其语复杂形态结构和语义歧义带来的分类困难，如黏着语特性导致的词汇变形和上下文依赖问题。构建过程中面临标注一致性挑战，需区分简短关键词查询与包含概念性描述的语义查询。土耳其语资源相对稀缺也增加了数据收集与验证难度，要求标注者具备语言学专业知识以确保分类准确性。

常用场景

经典使用场景

在信息检索领域，该数据集为土耳其语查询分类任务提供了基准支持。研究者利用其标注数据训练文本分类模型，区分关键词查询与语义查询两种模式，有效提升了搜索引擎对用户意图的理解精度。该数据集特别适用于对比不同分类算法在低资源语言环境下的性能表现。

衍生相关工作

基于该数据集衍生的经典工作包括土耳其语BERT模型的微调研究，以及跨语言查询分类的对比分析。这些研究不仅验证了迁移学习在低资源语言中的有效性，还催生了多个针对土耳其语自然语言处理的专用模型，为后续研究提供了重要参考。

数据集最近研究