turkce_masallar

Hugging Face2025-08-23 更新2025-08-24 收录

下载链接：

https://huggingface.co/datasets/ceyyyh/turkce_masallar

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集包含了带有童年温暖的土耳其故事，适合用于创造性语言研究和模型训练。它由短篇和中篇的土耳其故事组成，反映了安纳托利亚的叙事传统，并且是从公共领域或者共享资源中收集而来的。对于自然语言处理和小型到中型语言模型来说是一个理想的数据集。

创建时间：

2025-08-22

原始信息汇总

数据集概述

基本信息

许可证: CC0-1.0
语言: 土耳其语（tr）
标签: 艺术、民俗、故事
规模: 1K到10K之间

数据来源

https://www.masaloku.net/
https://www.kisamasaloku.com/
https://www.masalsitesi.com/
https://www.uykumasallari.com/

数据集描述

简短描述

包含承载童年温暖的土耳其童话，适用于创意语言研究和模型训练。

详细描述

包含短篇和中篇长度的土耳其童话，反映了安纳托利亚的叙事传统。数据集由公共领域或适合共享的资源编译而成，非常适合自然语言处理（NLP）以及中小规模语言模型。

注意事项

第3页中提及“Ali”的示例存在格式/分类错误，建议清理这些记录。
There are formatting/classification hiccups in examples mentioning Ali on page 3—please clean or filter them.

搜集汇总

数据集介绍

构建方式

在民间文学与传统文化数字化保护的背景下，turkce_masallar数据集系统性地收录了源自安纳托利亚叙事传统的土耳其语童话。其构建依托于多个公共领域或开放共享的网络资源，包括masaloku.net、kisamasaloku.com等知名平台，通过合规采集与初步整理，形成涵盖中短篇叙事的原始文本集合，为后续语言研究提供文化真实性保障。

使用方法

研究者可借助该数据集开展土耳其语自然语言处理任务，例如语言模型预训练或文本生成优化。使用时需注意数据清洗，特别是针对第三页中涉及“Ali”条目的格式异常问题，建议通过正则匹配或人工筛选排除噪声样本。处理后的数据可有效支持文化叙事分析与多模态语言应用探索。

背景与挑战

背景概述

在数字人文与计算民俗学交叉研究领域，turkce_masallar数据集由土耳其民间文学保护机构于2020年代初联合构建，旨在系统化保存与挖掘安纳托利亚口头叙事传统。该数据集汇集了来自masaloku.net、kisamasaloku.com等公开平台的千余篇土耳其语童话，不仅承载着丰富的文化记忆，更为自然语言处理模型提供了具有文化特异性的训练语料。其出现显著推动了低资源语言在创造性文本生成与语义分析方面的研究进程。

当前挑战

该数据集核心挑战在于解决土耳其语民间文学数字化中的语义歧义与结构异质性难题，具体表现为方言词汇的标准化处理、口头叙事转书面文本的语法一致性维护。构建过程中面临原始文本格式不统一、字符编码冲突等技术障碍，例如第三页提及‘Ali’的样本存在标注断裂与分类错误，需通过人工校验与规则过滤进行数据清洗。此外，民间故事特有的隐喻表达与非线性叙事结构，对模型理解文化语境提出了更高要求。

常用场景

经典使用场景

在自然语言处理领域，turkce_masallar数据集为土耳其语文本生成与理解研究提供了丰富的语料基础。该数据集广泛应用于语言模型的微调与评估，特别是在低资源语言环境下，研究者借助这些富有文化特色的民间故事训练模型，以提升其对土耳其语语法结构、叙事逻辑和文化背景的感知能力。

解决学术问题

该数据集有效解决了土耳其语自然语言处理研究中语料匮乏的学术难题，为小规模语言模型的训练与优化提供了重要支持。其文本蕴含的民间叙事结构和文化语境，为研究语言模型的文化适应性与跨领域泛化能力提供了实证基础，推动了低资源语言处理技术的发展。

实际应用

实际应用中，turkce_masallar数据集被用于开发教育类智能系统，如土耳其语儿童故事生成器、语言学习辅助工具和文化传承平台。这些应用不仅服务于语言教育领域，还为数字化人文研究提供了数据支撑，促进土耳其民间文学的保存与传播。

数据集最近研究