多个数据集
收藏github2025-02-27 更新2025-02-28 收录
下载链接:
https://github.com/kesimeg/awesome-turkish-language-models
下载链接
链接失效反馈官方服务:
资源简介:
该仓库包含多个土耳其语相关数据集,用于指令微调、多模态学习等。
This repository contains multiple Turkish-related datasets, which are intended for instruction fine-tuning, multimodal learning, and other related research tasks.
创建时间:
2025-02-25
原始信息汇总
数据集概述:awesome-turkish-language-models
数据集简介
- 目的:收集和分享土耳其语AI模型、数据集和论文资源。
- 特点:精选高质量资源,避免低质量或重复内容,强调独特性(如模型性能、任务独特性等)。
主要分类
1. 模型(Models)
大语言模型(LLMs)
- Turkish-Llama
- Llama-3-Trendyol-LLM-8b-chat-v2.0
- Trendyol-LLM-7B-chat-v4.1.0
- Turkcell-LLM-7b-v1
- Kocdigital-LLM-8b-v0.1
- OpenR1-Qwen-7B-Turkish
- wiroai-turkish-llm-9b
视觉语言模型(VLMs)
- Turkish-LLaVA
自然语言处理(NLP)
- tybert
- tyroberta
- turkish-base-bert-uncased
- turkish-colbert
- turkish-gpt2-large
- bert-base-turkish-128k-uncased
- bert-offensive-lang-detection-tr
- kanarya-2b
- TURNA
- 赫尔辛基NLP组(多翻译模型)
- TurkishBERTweet
- bert-base-turkish-cased-ner
多模态模型
- lora-turkish-clip
2. 数据集(Datasets)
纯文本
- turkish_instructions(指令调优)
- alpaca-tr(指令调优)
- TurkishMMLU
- WikiRAG-TR
- Bactrian-X
- turkish_mmlu
- 赫尔辛基NLP组(翻译数据集)
- gsm8k_tr
- turkish-wikiNER
- InstrucTurca
- dolphin-r1-turkish(推理数据集)
- c4(网页抓取)
- HPLT2.0_cleaned(网页抓取)
- wikiann(NER)
- TUR2SQL(文本转SQL)
- Holmeister系列(17个数据集,11种任务)
文本与图像
- Turkish-LLaVA-Finetune
- Turkish-LLaVA-Pretrain
- turkce-kitap
- LLaVA1.5-Data-Turkish
- TasvirEt
- Cohere For AI(VLM基准数据集)
文本与语音
- common_voice_17_0
3. 论文(Papers)
- Cosmos-LLaVA: Chatting with the Visual
- Introducing cosmosGPT: Monolingual Training for Turkish Language Models
- TurkishMMLU: Measuring Massive Multitask Language Understanding in Turkish
- TURSpider: A Turkish Text-to-SQL Dataset and LLM-Based Study
- How do LLMs perform on Turkish? A multi-faceted multi-prompt evaluation
- Evaluating the Quality of Benchmark Datasets for Low-Resource Languages: A Case Study on Turkish
4. 基准测试(Benchmarks)
- OpenLLMTurkishLeaderboard_v0.2
- Cetvel
- Turkish-rewardbench
5. 工具与API(Tools and APIs)
- Glosbe
- Wiktionary
- Zemberek(土耳其语NLP工具)
- turkish-apis(土耳其API列表)
6. 其他资源(Miscellaneous)
- Mukayese: Turkish NLP Strikes Back
- Mukayese github仓库
- Wikipedia数据转储
搜集汇总
数据集介绍

构建方式
该数据集名为多个数据集,其构建方式旨在搜集和整合土耳其语的人工智能模型、数据集和论文资源。鉴于土耳其相关资源在网络上分布零散且数量有限,此数据集通过精心的筛选和整理,将具有独特性的模型、数据集和论文汇集一处,以促进资源的共享与传播。
特点
此数据集的特点在于其内容的精选性,不仅囊括了各种土耳其语的NLP和LLM模型,还包含了文本、图像、语音等多模态数据集。此外,数据集还包含了相关的论文和基准测试,以及用于土耳其自然语言处理的各种工具和APIs。每一项条目都被要求具有某种独特的元素,如模型性能、任务独特性或团队公司的突出表现。
使用方法
用户可以通过访问GitHub仓库来浏览和下载这些资源。数据集的使用方法多样,既可以用于模型训练,也可以用于基准测试或与其他资源配合使用。用户还可以通过贡献指南向该数据集添加新的资源,以丰富和完善数据集的内容。
背景与挑战
背景概述
本研究致力于整理土耳其语人工智能模型、数据集和论文的精选资源列表。鉴于土耳其相关资源的数量较少且分布零散,本项目旨在通过精心挑选,汇聚具有独特性的资源,以促进土耳其语自然语言处理(NLP)和大型语言模型(LLM)的发展。自项目启动以来,已有多项模型、数据集和论文在此平台上分享,对土耳其语AI领域的研究和进展产生了积极影响。
当前挑战
该数据集面临的挑战主要在于土耳其语资源的稀缺性,导致相关领域的研究人员难以获取高质量的训练数据。此外,构建过程中遇到的挑战包括如何筛选具有独特性和高质量的资源,以及如何在众多重复或低质量的数据集中识别并整合有价值的数据。这些挑战对于维护一个全面而精炼的资源列表至关重要,以确保研究社区能够高效地获取所需的资源。
常用场景
经典使用场景
在土耳其自然语言处理(NLP)领域,多个数据集的集成运用为研究者和开发者提供了丰富的资源。该数据集的经典使用场景在于,通过这些数据集,研究者能够构建和训练适用于土耳其语的预训练语言模型,进而提升模型在土耳其本土语言环境下的表现,为土耳其语的语言理解、生成等任务提供强有力的数据支撑。
解决学术问题
该数据集解决了土耳其语NLP研究中的多个学术问题,包括缺乏大规模、高质量的土耳其语标注数据,以及针对特定NLP任务的训练数据不足等问题。它为土耳其语的文本分类、情感分析、命名实体识别等任务提供了必要的文本资源,有助于推动土耳其语NLP领域的学术研究。
衍生相关工作
基于这些数据集,衍生出了一系列相关的研究工作,包括但不限于土耳其语的语言模型开发、多模态学习研究以及跨语言模型的迁移学习等。这些工作进一步拓展了土耳其语NLP的边界,为该领域的发展贡献了新的研究成果。
以上内容由遇见数据集搜集并总结生成



