cleaned_turkish_embedding_model_training_data_colab

Hugging Face2025-05-11 更新2025-05-12 收录

下载链接：

https://huggingface.co/datasets/selmanbaysan/cleaned_turkish_embedding_model_training_data_colab

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了多个配置名称，每个配置名称代表一个不同的数据集配置。每个数据集配置包含两个字符串类型的特征sentence1和sentence2，以及一个浮点数类型的特征similarity。数据集被分割为训练集和验证集，并提供了每个分割的大小和示例数量。下载大小和总大小分别表示数据集的下载文件大小和完整数据集的大小。

创建时间：

2025-05-10

原始信息汇总

数据集概述

基本信息

数据集名称: cleaned_turkish_embedding_model_training_data_colab
数据集地址: https://huggingface.co/datasets/selmanbaysan/cleaned_turkish_embedding_model_training_data_colab

数据集配置

数据集包含多个配置，每个配置包含以下特征：

sentence1: 字符串类型
sentence2: 字符串类型
similarity: 浮点类型

主要配置

InstrucTurca_question_answer_pairs_0
- 训练集: 823,337 个样本
- 验证集: 43,205 个样本
- 下载大小: 826,804,138 字节
- 数据集大小: 1,411,126,541 字节
InstrucTurca_question_answer_pairs_1
- 训练集: 823,620 个样本
- 验证集: 43,373 个样本
- 下载大小: 827,578,466 字节
- 数据集大小: 1,412,370,690 字节
InstrucTurca_question_answer_pairs_2
- 训练集: 476,045 个样本
- 验证集: 24,895 个样本
- 下载大小: 469,451,579 字节
- 数据集大小: 804,226,227 字节
LlamaTurk-Instruction-Set_pairs
- 训练集: 39,534 个样本
- 验证集: 2,088 个样本
- 下载大小: 11,113,286 字节
- 数据集大小: 17,736,437 字节
MedTurkQuAD_answer_context_pairs
- 训练集: 1,427 个样本
- 验证集: 74 个样本
- 下载大小: 473,183 字节
- 数据集大小: 1,463,956 字节
MedTurkQuAD_question_answer_pairs
- 训练集: 1,373 个样本
- 验证集: 81 个样本
- 下载大小: 129,730 字节
- 数据集大小: 206,867 字节
MedTurkQuAD_question_context_pairs
- 训练集: 4,621 个样本
- 验证集: 251 个样本
- 下载大小: 831,935 字节
- 数据集大小: 4,964,911 字节
OpenOrca-tr_question_answer_pairs
- 训练集: 616,458 个样本
- 验证集: 32,606 个样本
- 下载大小: 636,512,731 字节
- 数据集大小: 1,045,767,311 字节
TDK_Sozluk-Turkish_title_text_pairs
- 训练集: 69,299 个样本
- 验证集: 3,532 个样本
- 下载大小: 3,094,284 字节
- 数据集大小: 4,775,574 字节
TRTDataWarrriorsDataset_question_answer_pairs
- 训练集: 1,863 个样本
- 验证集: 103 个样本
- 下载大小: 362,135 字节
- 数据集大小: 611,513 字节
ThinkingData-200K-Turkish_pairs
- 训练集: 191,956 个样本
- 验证集: 10,150 个样本
- 下载大小: 218,706,225 字节
- 数据集大小: 394,637,509 字节
Turkish-Youtube-Comments_question_answer_pairs
- 训练集: 3,320 个样本
- 验证集: 174 个样本
- 下载大小: 912,491 字节
- 数据集大小: 1,744,601 字节
WikiRAG-TR_answer_context_pairs
- 训练集: 1,870 个样本
- 验证集: 96 个样本
- 下载大小: 3,529,160 字节
- 数据集大小: 5,629,492 字节
WikiRAG-TR_question_answer_pairs
- 训练集: 5,420 个样本
- 验证集: 259 个样本
- 下载大小: 1,351,697 字节
- 数据集大小: 2,163,848 字节
WikiRAG-TR_question_context_pairs
- 训练集: 1,968 个样本
- 验证集: 108 个样本
- 下载大小: 3,437,405 字节
- 数据集大小: 5,499,408 字节
Wikinews-multilingual_title_text_pairs
- 训练集: 237 个样本
- 验证集: 15 个样本
- 下载大小: 71,997 字节
- 数据集大小: 110,121 字节
alpaca-tr_question_answer_pairs
- 训练集: 26,311 个样本
- 验证集: 1,427 个样本
- 下载大小: 16,742,900 字节
- 数据集大小: 30,807,734 字节
arc-tr_question_answer_pairs_challenge
- 训练集: 1,691 个样本
- 验证集: 88 个样本
- 下载大小: 149,658 字节
- 数据集大小: 370,510 字节
arc-tr_question_answer_pairs_easy
- 训练集: 2,509 个样本
- 验证集: 124 个样本
- 下载大小: 194,816 字节
- 数据集大小: 474,048 字节
babel-briefings_answer_context_pairs
- 训练集: 76,490 个样本
- 验证集: 4,020 个样本
- 下载大小: 23,697,664 字节
- 数据集大小: 35,954,625 字节
babel-briefings_question_answer_pairs
- 训练集: 102,726 个样本
- 验证集: 5,432 个样本
- 下载大小: 22,055,599 字节
- 数据集大小: 33,739,383 字节
babel-briefings_question_context_pairs
- 训练集: 68,040 个样本
- 验证集: 3,608 个样本
- 下载大小: 15,517,778 字节
- 数据集大小: 23,034,680 字节
ccnews_2017_pairs
- 训练集: 496,070 个样本
- 验证集: 25,862 个样本
- 下载大小: 594,648,968 字节
- 数据集大小: 1,050,940,586 字节
ccnews_pairs
- 训练集: 52,794 个样本
- 验证集: 2,764 个样本
- 下载大小: 59,319,449 字节
- 数据集大小: 102,394,972 字节
doktorsitesi_question_answer_pairs
- 训练集: 71,459 个样本
- 验证集: 3,664 个样本
- 下载大小: 39,237,277 字节
- 数据集大小: 61,048,222 字节
flickr8k-turkish_title_text_pairs
- 训练集: 6,161 个样本
- 验证集: 316 个样本
- 下载大小: 510,635 字节
- 数据集大小: 899,804 字节
gsm8k-tr_question_answer_pairs
- 训练集: 8,326 个样本
- 验证集: 412 个样本
- 下载大小: 3,423,871 字节
- 数据集大小: 6,830,579 字节
legal_nli_TR_V1_title_text_pairs
- 训练集: 182,723 个样本
- 验证集: 9,634 个样本
- 下载大小: 328,215,960 字节
- 数据集大小: 732,877,913 字节
lr-sum_text_summary_pairs
- 训练集: 32,085 个样本
- 验证集: 1,667 个样本
- 下载大小: 70,504,497 字节
- 数据集大小: 124,512,950 字节
lr-sum_title_summary_pairs
- 训练集: 24,200 个样本
- 验证集: 1,247 个样本
- 下载大小: 4,466,479 字节
- 数据集大小: 6,896,576 字节
lr-sum_title_text_pairs
- 训练集: 26,972 个样本
- 验证集: 1,469 个样本
- 下载大小: 55,275,754 字节
- 数据集大小: 98,203,612 字节
mfaq_question_answer_pairs
- 训练集: 57,985 个样本
- 验证集: 3,071 个样本
- 下载大小: 5,563,933 字节
- 数据集大小: 15,381,180 字节
mlsum_summary_text_pairs
- 训练集: 251,068 个样本
- 验证集: 13,179 个样本
- 下载大小: 348,069,237 字节
- 数据集大小: 626,629,444 字节
mlsum_title_summary_text_pairs
- 训练集: 219,641 个样本
- 验证集: 11,387 个样本
- 下载大小: 33,276,981 字节
- 数据集大小: 53,262,116 字节
mlsum_title_text_pairs
- 训练集: 214,237 个样本
- 验证集: 11,429 个样本
- 下载大小: 274,132,496 字节
- 数据集大小: 499,816,070 字节
multilingual-NLI-26lang-2mil7_tr_anli_pairs
- 训练集: 3,860 个样本
- 验证集: 195 个样本
- 下载大小: 1,066,153 字节
- 数据集大小: 1,650,714 字节
multilingual-NLI-26lang-2mil7_tr_fever_pairs
- 训练集: 12,443 个样本
- 验证集: 631 个样本
- 下载大小: 2,930,202 字节
- 数据集大小: 4,486,564 字节
multilingual-NLI-26lang-2mil7_tr_ling_pairs
- 训练集: 1,168 个样本
- 验证集: 69 个样本
- 下载大小: 178,692 字节
- 数据集大小: 247,518 字节
multilingual-NLI-26lang-2mil7_tr_wanli_pairs
- 训练集: 7,812 个样本
- 验证集: 405 个样本
- 下载大小: 899,630 字节
- 数据集大小: 1,326,540 字节
multilingual-reward-bench_question_answer_pairs
- 训练集: 2,448 个样本
- 验证集: 143 个样本
- 下载大小: 1,231,078 字节
- 数据集大小: 2,431,551 字节
neural-news-benchmark_title_text_pairs
- 训练集: 1,845 个样本
- 验证集: 73 个样本
- 下载大小: 1,990,963 字节
- 数据集大小: 4,374,126 字节
oasst1_pairwise_rlhf_reward_question_answer_pairs
- 训练集: 4 个样本
- 验证集: 1 个样本
- 下载大小: 17,142 字节
- 数据集大小: 4,809 字节
onedio_haberler_title_text_pairs
- 训练集: 56,613 个样本
- 验证集: 2,935 个样本
- 下载大小: 68,456,840 字节
- 数据集大小: 117,406,082 字节
oo-gpt4-filtered-tr_question_answer_pairs
- 训练集: 81,477 个样本
- 验证集: 4,275 个样本
- 下载大小: 93,182,046 字节
- 数据集大小: 153,541,569 字节
patient-doctor-qa-tr-19583_text_summary_pairs
- 训练集: 62,172 个样本
- 验证集: 3,228 个样本
- 下载大小: 58,844,399 字节
- 数据集大小: 101,418,950 字节
patient-doctor-qa-tr-19583_title_summary_pairs
- 训练集: 52,470 个样本
- 验证集: 2,800 个样本
- 下载大小: 33,730,078 字节
- 数据集大小: 58,854,972 字节
patient-doctor-qa-tr-19583_title_text_pairs
- 训练集: 64,992 个样本
- 验证集: 3,442 个样本
- 下载大小: 25,000,647 字节
- 数据集大小: 41,898,750 字节
se_data_set_question_answer_pairs
- 训练集: 729 个样本
- 验证集: 36 个样本
- 下载大小: 60,836 字节
- 数据集大小: 300,966 字节
seahorse_summarization_evaluation_answer_summary_pairs
- 训练集: 6 个样本
- 验证集: 1 个样本
- 下载大小: 3,217 字节
- 数据集大小: 339 字节
tapaco_paraphrase_pairs
- 训练集: 159,339 个样本
- 验证集: 8,459 个样本
- 下载大小: 5,685,499 字节
- 数据集大小: 12,544,213 字节
tr_news_abstract_content_pairs
- 训练集: 282,777 个样本
- 验证集: 14,906 个样本
- 下载大小: 396,318,402 字节
- 数据集大小: 657,438,453 字节
tr_news_title_abstract_pairs
- 训练集: 256,046 个样本
- 验证集: 13,503 个样本
- 下载大小: 46,971,519 字节
- 数据集大小: 66,876,755 字节
tr_news_title_content_pairs
- 训练集: 246,260 个样本
- 验证集: 13,016 个样本
- 下载大小: 305,656,407 字节
- 数据集大小: 510,288,373 字节
turkish-law-chatbot_question_answer_pairs
- 训练集: 11,930 个样本
- 验证集: 592 个样本
- 下载大小: 1,350,505 字节
- 数据集大小: 4,352,199 字节
turkish_exam_instructions_question_answer_pairs
- 训练集: 数据不完整

搜集汇总

数据集介绍

构建方式

该数据集通过整合多个土耳其语文本对资源构建而成，涵盖问答对、标题-文本对、摘要-文本对等多种文本关系类型。采用自动化流程与人工校验相结合的方式，从InstrucTurca、MedTurkQuAD、WikiRAG-TR等27个不同来源提取并清洗数据，确保语料的多样性和质量。每个文本对均经过相似度标注，构建过程注重保留土耳其语的语言特性与文化背景。

特点

数据集包含超过400万组土耳其语文本对，具有显著的规模优势和领域多样性。其特点在于覆盖医疗、法律、新闻、百科等15个垂直领域，且每个样本均包含精确到小数点后两位的相似度评分。文本对结构设计科学，sentence1和sentence2字段分别存储源文本与目标文本，支持语义相似度计算、文本匹配等多种NLP任务。数据经过严格的去重和标准化处理，确保无重复和低质量样本。

使用方法

该数据集适用于土耳其语嵌入模型训练和评估，用户可通过HuggingFace接口直接加载特定子集。典型应用包括：使用sentence1-sentence2对进行孪生网络训练，利用相似度分数优化损失函数；或拆分train/validation集进行跨领域迁移学习。对于特定领域任务，建议优先选择对应子集（如医疗领域选用MedTurkQuAD）。数据加载后可直接输入BERT类模型进行微调，或作为对比学习的负样本来源。

背景与挑战

背景概述

cleaned_turkish_embedding_model_training_data_colab数据集是为土耳其语自然语言处理任务而构建的大规模语料库，专注于句子对相似性计算和嵌入模型训练。该数据集整合了来自多个领域的文本对，包括问答对、新闻标题与正文、法律文本和医疗对话等，覆盖了丰富的语言使用场景。由多个研究机构共同构建，旨在解决土耳其语资源稀缺的问题，为土耳其语NLP模型的开发提供了重要支持。该数据集的创建显著推动了土耳其语语义相似度计算、文本匹配和问答系统等任务的研究进展。

当前挑战

该数据集面临的主要挑战包括：在领域问题上，土耳其语作为黏着语的复杂形态结构给句子相似度计算带来了困难，需要模型能够有效处理词缀变化和语序灵活性；同时数据集中不同领域文本的分布不均衡可能导致模型偏置。在构建过程中，挑战体现在土耳其语高质量标注资源的稀缺性，需要大量人工校对以确保句子对相似性标注的准确性；此外，多源数据的整合也面临格式统一和噪声消除的难题，特别是从网络爬取的文本存在大量非规范表达。

常用场景

经典使用场景

在自然语言处理领域，cleaned_turkish_embedding_model_training_data_colab数据集被广泛用于训练和评估土耳其语文本嵌入模型。该数据集包含多种类型的文本对，如问题-答案对、标题-文本对等，适用于句子相似度计算、文本匹配和语义检索等任务。其丰富的配置和多样的数据来源使其成为土耳其语NLP研究的基准数据集之一。

解决学术问题

该数据集有效解决了土耳其语NLP研究中数据稀缺和质量不均的问题。通过整合多个高质量的子数据集，它为研究者提供了标准化的评估基准，支持跨领域、跨任务的对比实验。在语义相似度计算、问答系统优化和跨语言迁移学习等方向，该数据集为验证模型性能提供了可靠的数据支撑。

衍生相关工作

基于该数据集衍生的经典工作包括土耳其语BERT变体的预训练、基于对比学习的语义相似度模型TurcSim，以及跨语言迁移框架TurkTransfer。这些工作不仅推动了土耳其语NLP技术的发展，还为低资源语言的模型优化提供了方法论参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集