five

多个数据集

收藏
github2025-02-27 更新2025-02-28 收录
下载链接:
https://github.com/kesimeg/awesome-turkish-language-models
下载链接
链接失效反馈
官方服务:
资源简介:
该仓库包含多个土耳其语相关数据集,用于指令微调、多模态学习等。

This repository contains multiple Turkish-related datasets, which are intended for instruction fine-tuning, multimodal learning, and other related research tasks.
创建时间:
2025-02-25
原始信息汇总

数据集概述:awesome-turkish-language-models

数据集简介

  • 目的:收集和分享土耳其语AI模型、数据集和论文资源。
  • 特点:精选高质量资源,避免低质量或重复内容,强调独特性(如模型性能、任务独特性等)。

主要分类

1. 模型(Models)

大语言模型(LLMs)

  1. Turkish-Llama
  2. Llama-3-Trendyol-LLM-8b-chat-v2.0
  3. Trendyol-LLM-7B-chat-v4.1.0
  4. Turkcell-LLM-7b-v1
  5. Kocdigital-LLM-8b-v0.1
  6. OpenR1-Qwen-7B-Turkish
  7. wiroai-turkish-llm-9b

视觉语言模型(VLMs)

  1. Turkish-LLaVA

自然语言处理(NLP)

  1. tybert
  2. tyroberta
  3. turkish-base-bert-uncased
  4. turkish-colbert
  5. turkish-gpt2-large
  6. bert-base-turkish-128k-uncased
  7. bert-offensive-lang-detection-tr
  8. kanarya-2b
  9. TURNA
  10. 赫尔辛基NLP组(多翻译模型)
  11. TurkishBERTweet
  12. bert-base-turkish-cased-ner

多模态模型

  1. lora-turkish-clip

2. 数据集(Datasets)

纯文本

  1. turkish_instructions(指令调优)
  2. alpaca-tr(指令调优)
  3. TurkishMMLU
  4. WikiRAG-TR
  5. Bactrian-X
  6. turkish_mmlu
  7. 赫尔辛基NLP组(翻译数据集)
  8. gsm8k_tr
  9. turkish-wikiNER
  10. InstrucTurca
  11. dolphin-r1-turkish(推理数据集)
  12. c4(网页抓取)
  13. HPLT2.0_cleaned(网页抓取)
  14. wikiann(NER)
  15. TUR2SQL(文本转SQL)
  16. Holmeister系列(17个数据集,11种任务)

文本与图像

  1. Turkish-LLaVA-Finetune
  2. Turkish-LLaVA-Pretrain
  3. turkce-kitap
  4. LLaVA1.5-Data-Turkish
  5. TasvirEt
  6. Cohere For AI(VLM基准数据集)

文本与语音

  1. common_voice_17_0

3. 论文(Papers)

  1. Cosmos-LLaVA: Chatting with the Visual
  2. Introducing cosmosGPT: Monolingual Training for Turkish Language Models
  3. TurkishMMLU: Measuring Massive Multitask Language Understanding in Turkish
  4. TURSpider: A Turkish Text-to-SQL Dataset and LLM-Based Study
  5. How do LLMs perform on Turkish? A multi-faceted multi-prompt evaluation
  6. Evaluating the Quality of Benchmark Datasets for Low-Resource Languages: A Case Study on Turkish

4. 基准测试(Benchmarks)

  1. OpenLLMTurkishLeaderboard_v0.2
  2. Cetvel
  3. Turkish-rewardbench

5. 工具与API(Tools and APIs)

  1. Glosbe
  2. Wiktionary
  3. Zemberek(土耳其语NLP工具)
  4. turkish-apis(土耳其API列表)

6. 其他资源(Miscellaneous)

  1. Mukayese: Turkish NLP Strikes Back
  2. Mukayese github仓库
  3. Wikipedia数据转储
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集名为多个数据集,其构建方式旨在搜集和整合土耳其语的人工智能模型、数据集和论文资源。鉴于土耳其相关资源在网络上分布零散且数量有限,此数据集通过精心的筛选和整理,将具有独特性的模型、数据集和论文汇集一处,以促进资源的共享与传播。
特点
此数据集的特点在于其内容的精选性,不仅囊括了各种土耳其语的NLP和LLM模型,还包含了文本、图像、语音等多模态数据集。此外,数据集还包含了相关的论文和基准测试,以及用于土耳其自然语言处理的各种工具和APIs。每一项条目都被要求具有某种独特的元素,如模型性能、任务独特性或团队公司的突出表现。
使用方法
用户可以通过访问GitHub仓库来浏览和下载这些资源。数据集的使用方法多样,既可以用于模型训练,也可以用于基准测试或与其他资源配合使用。用户还可以通过贡献指南向该数据集添加新的资源,以丰富和完善数据集的内容。
背景与挑战
背景概述
本研究致力于整理土耳其语人工智能模型、数据集和论文的精选资源列表。鉴于土耳其相关资源的数量较少且分布零散,本项目旨在通过精心挑选,汇聚具有独特性的资源,以促进土耳其语自然语言处理(NLP)和大型语言模型(LLM)的发展。自项目启动以来,已有多项模型、数据集和论文在此平台上分享,对土耳其语AI领域的研究和进展产生了积极影响。
当前挑战
该数据集面临的挑战主要在于土耳其语资源的稀缺性,导致相关领域的研究人员难以获取高质量的训练数据。此外,构建过程中遇到的挑战包括如何筛选具有独特性和高质量的资源,以及如何在众多重复或低质量的数据集中识别并整合有价值的数据。这些挑战对于维护一个全面而精炼的资源列表至关重要,以确保研究社区能够高效地获取所需的资源。
常用场景
经典使用场景
在土耳其自然语言处理(NLP)领域,多个数据集的集成运用为研究者和开发者提供了丰富的资源。该数据集的经典使用场景在于,通过这些数据集,研究者能够构建和训练适用于土耳其语的预训练语言模型,进而提升模型在土耳其本土语言环境下的表现,为土耳其语的语言理解、生成等任务提供强有力的数据支撑。
解决学术问题
该数据集解决了土耳其语NLP研究中的多个学术问题,包括缺乏大规模、高质量的土耳其语标注数据,以及针对特定NLP任务的训练数据不足等问题。它为土耳其语的文本分类、情感分析、命名实体识别等任务提供了必要的文本资源,有助于推动土耳其语NLP领域的学术研究。
衍生相关工作
基于这些数据集,衍生出了一系列相关的研究工作,包括但不限于土耳其语的语言模型开发、多模态学习研究以及跨语言模型的迁移学习等。这些工作进一步拓展了土耳其语NLP的边界,为该领域的发展贡献了新的研究成果。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作