Creamory/turkish-news-10k

Name: Creamory/turkish-news-10k
Creator: Creamory
Published: 2026-04-30 07:51:05
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/Creamory/turkish-news-10k

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含9309条土耳其新闻（已清理）及其标题。数据集的特征包括消息列表（包含角色和内容）、新闻ID和类别。数据集分为训练集、验证集和测试集，分别包含7447、931和931个样本。数据集的语言为土耳其语，标签为土耳其新闻，规模在1K到10K之间。

This dataset contains 9309 Turkish news (cleaned) with their headlines. The features of the dataset include a list of messages (containing roles and content), news IDs, and categories. The dataset is divided into training, validation, and test sets, containing 7447, 931, and 931 samples respectively. The language of the dataset is Turkish, tagged as Turkish news, with a size between 1K and 10K.

提供机构：

Creamory

搜集汇总

数据集介绍

构建方式

该数据集以土耳其语新闻为核心，从原始新闻来源中收集并经过清洗处理，保留了新闻标题与正文内容。数据按照标准格式组织，每条样本包含三个字段：用于对话建模的'messages'字段，内含角色与内容信息；'news_id'作为唯一标识符；'category'标注新闻所属类别。数据被划分为训练集（7447条）、验证集（931条）和测试集（931条），总计9309条样本，覆盖了从1千到1万条规模的中小型数据集范畴。

使用方法

使用时可通过HuggingFace Datasets库直接加载，指定配置名称为'default'，即可获取训练、验证和测试三个分片的数据。对于文本分类任务，可直接利用'content'字段作为输入，'category'字段作为标签；若需进行对话生成或微调，则可利用'messages'字段构建多轮对话样本。数据以Parquet格式存储，支持高效的流式读取和批处理操作。

背景与挑战

背景概述

在自然语言处理领域，新闻文本分类一直是重要且基础的研究课题，尤其对于低资源语言如土耳其语而言，高质量标注数据集的匮乏严重制约了相关技术的进步。turkish-news-10k数据集应运而生，它收录了9309条经过清洗的土耳其语新闻及其标题，并按照约8:1:1的比例划分为训练集、验证集和测试集。该数据集由匿名研究团队创建，旨在为土耳其语新闻分类、标题生成等任务提供标准化的基准资源。自发布以来，它已成为土耳其语自然语言处理研究中不可或缺的基石，推动了该语言在文本分类领域的模型评估与对比研究，影响力覆盖学术研究与工业应用。

当前挑战

该数据集所解决的领域核心挑战在于土耳其语新闻文本的自动分类与标题匹配任务，由于土耳其语属于黏着语，词形变化丰富且形态复杂，传统的基于词袋模型的方法难以有效捕捉语义信息。在构建过程中，研究团队面临了显著挑战：一方面，需要从海量网络新闻源中筛选并清洗噪声数据，确保新闻内容的准确性与一致性；另一方面，数据规模仅万余条，在深度学习时代属于典型的小样本场景，容易导致模型过拟合，且类别分布的不均衡使得少数类别的分类性能难以保证。这些挑战共同构成了推动更鲁棒的土耳其语预训练模型与数据增强方法发展的直接动力。

常用场景

经典使用场景

土耳其语新闻数据集（turkish-news-10k）收录了约9309篇经过清洗的土耳其语新闻及其标题，是自然语言处理领域研究土耳其语文本的宝贵资源。该数据集最经典的用途在于训练和评估文本分类模型，尤其是新闻主题分类任务。研究人员可基于新闻正文或标题，构建能够自动判别新闻所属类别（如政治、经济、体育等）的深度学习或传统机器学习模型，从而推动低资源语言新闻信息处理技术的发展。

解决学术问题

该数据集有效缓解了土耳其语自然语言处理研究中高质量标注语料匮乏的困境。它为新闻主题分类、文本摘要生成、关键词提取等学术探索提供了标准化的基准测试平台。通过在此数据集上的实验，学者能够系统评估不同算法在土耳其语这一形态丰富语言上的表现，进而探讨词汇形态、句法结构对模型泛化能力的影响，为跨语言迁移学习研究提供实证支撑。

实际应用

在实际应用中，该数据集可赋能土耳其语新闻媒体的智能化工作流。例如，新闻聚合平台可借助基于该数据训练的分类模型，自动将海量资讯分门别类地推送至用户；信息监测系统能实时识别特定领域的突发新闻；同时，该数据也为构建土耳其语智能问答系统、舆情分析工具提供了基础语料，助力企业或政府机构把握土耳其语舆论动向。

数据集最近研究