多个数据集

github2025-02-27 更新2025-02-28 收录

下载链接：

https://github.com/kesimeg/awesome-turkish-language-models

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库包含多个土耳其语相关数据集，用于指令微调、多模态学习等。

This repository contains multiple Turkish-related datasets, which are intended for instruction fine-tuning, multimodal learning, and other related research tasks.

创建时间：

2025-02-25

原始信息汇总

数据集概述：awesome-turkish-language-models

数据集简介

目的：收集和分享土耳其语AI模型、数据集和论文资源。
特点：精选高质量资源，避免低质量或重复内容，强调独特性（如模型性能、任务独特性等）。

主要分类

1. 模型（Models）

大语言模型（LLMs）

Turkish-Llama
Llama-3-Trendyol-LLM-8b-chat-v2.0
Trendyol-LLM-7B-chat-v4.1.0
Turkcell-LLM-7b-v1
Kocdigital-LLM-8b-v0.1
OpenR1-Qwen-7B-Turkish
wiroai-turkish-llm-9b

视觉语言模型（VLMs）

Turkish-LLaVA

自然语言处理（NLP）

tybert
tyroberta
turkish-base-bert-uncased
turkish-colbert
turkish-gpt2-large
bert-base-turkish-128k-uncased
bert-offensive-lang-detection-tr
kanarya-2b
TURNA
赫尔辛基NLP组（多翻译模型）
TurkishBERTweet
bert-base-turkish-cased-ner

多模态模型

lora-turkish-clip

2. 数据集（Datasets）

纯文本

turkish_instructions（指令调优）
alpaca-tr（指令调优）
TurkishMMLU
WikiRAG-TR
Bactrian-X
turkish_mmlu
赫尔辛基NLP组（翻译数据集）
gsm8k_tr
turkish-wikiNER
InstrucTurca
dolphin-r1-turkish（推理数据集）
c4（网页抓取）
HPLT2.0_cleaned（网页抓取）
wikiann（NER）
TUR2SQL（文本转SQL）
Holmeister系列（17个数据集，11种任务）

文本与图像

Turkish-LLaVA-Finetune
Turkish-LLaVA-Pretrain
turkce-kitap
LLaVA1.5-Data-Turkish
TasvirEt
Cohere For AI（VLM基准数据集）

文本与语音

common_voice_17_0

3. 论文（Papers）

Cosmos-LLaVA: Chatting with the Visual
Introducing cosmosGPT: Monolingual Training for Turkish Language Models
TurkishMMLU: Measuring Massive Multitask Language Understanding in Turkish
TURSpider: A Turkish Text-to-SQL Dataset and LLM-Based Study
How do LLMs perform on Turkish? A multi-faceted multi-prompt evaluation
Evaluating the Quality of Benchmark Datasets for Low-Resource Languages: A Case Study on Turkish

4. 基准测试（Benchmarks）

OpenLLMTurkishLeaderboard_v0.2
Cetvel
Turkish-rewardbench

5. 工具与API（Tools and APIs）

Glosbe
Wiktionary
Zemberek（土耳其语NLP工具）
turkish-apis（土耳其API列表）

6. 其他资源（Miscellaneous）

Mukayese: Turkish NLP Strikes Back
Mukayese github仓库
Wikipedia数据转储

搜集汇总

数据集介绍

构建方式

该数据集名为多个数据集，其构建方式旨在搜集和整合土耳其语的人工智能模型、数据集和论文资源。鉴于土耳其相关资源在网络上分布零散且数量有限，此数据集通过精心的筛选和整理，将具有独特性的模型、数据集和论文汇集一处，以促进资源的共享与传播。

特点

此数据集的特点在于其内容的精选性，不仅囊括了各种土耳其语的NLP和LLM模型，还包含了文本、图像、语音等多模态数据集。此外，数据集还包含了相关的论文和基准测试，以及用于土耳其自然语言处理的各种工具和APIs。每一项条目都被要求具有某种独特的元素，如模型性能、任务独特性或团队公司的突出表现。

使用方法

用户可以通过访问GitHub仓库来浏览和下载这些资源。数据集的使用方法多样，既可以用于模型训练，也可以用于基准测试或与其他资源配合使用。用户还可以通过贡献指南向该数据集添加新的资源，以丰富和完善数据集的内容。

背景与挑战

背景概述

本研究致力于整理土耳其语人工智能模型、数据集和论文的精选资源列表。鉴于土耳其相关资源的数量较少且分布零散，本项目旨在通过精心挑选，汇聚具有独特性的资源，以促进土耳其语自然语言处理（NLP）和大型语言模型（LLM）的发展。自项目启动以来，已有多项模型、数据集和论文在此平台上分享，对土耳其语AI领域的研究和进展产生了积极影响。

当前挑战

该数据集面临的挑战主要在于土耳其语资源的稀缺性，导致相关领域的研究人员难以获取高质量的训练数据。此外，构建过程中遇到的挑战包括如何筛选具有独特性和高质量的资源，以及如何在众多重复或低质量的数据集中识别并整合有价值的数据。这些挑战对于维护一个全面而精炼的资源列表至关重要，以确保研究社区能够高效地获取所需的资源。

常用场景

经典使用场景

在土耳其自然语言处理（NLP）领域，多个数据集的集成运用为研究者和开发者提供了丰富的资源。该数据集的经典使用场景在于，通过这些数据集，研究者能够构建和训练适用于土耳其语的预训练语言模型，进而提升模型在土耳其本土语言环境下的表现，为土耳其语的语言理解、生成等任务提供强有力的数据支撑。

解决学术问题

该数据集解决了土耳其语NLP研究中的多个学术问题，包括缺乏大规模、高质量的土耳其语标注数据，以及针对特定NLP任务的训练数据不足等问题。它为土耳其语的文本分类、情感分析、命名实体识别等任务提供了必要的文本资源，有助于推动土耳其语NLP领域的学术研究。

衍生相关工作

基于这些数据集，衍生出了一系列相关的研究工作，包括但不限于土耳其语的语言模型开发、多模态学习研究以及跨语言模型的迁移学习等。这些工作进一步拓展了土耳其语NLP的边界，为该领域的发展贡献了新的研究成果。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集