Electrotubbie/triplets_Turkic_languages

Name: Electrotubbie/triplets_Turkic_languages
Creator: Electrotubbie
Published: 2024-01-17 22:38:52
License: 暂无描述

Hugging Face2024-01-17 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Electrotubbie/triplets_Turkic_languages

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集旨在测试模型在处理下一句预测（NSP）和句子顺序预测（SOP）任务时的表现。它包含两个子集，每个子集由文本三元组组成。每个条目包含三个值：文本三元组、指示句子顺序是否正确的标志以及句子语言。数据集的创建过程包括使用特定规则从预处理和分析的文本中选择三元组，确保三元组的长度大致相同且在30到100个字符之间，并且没有句子在数据集中重复出现。

提供机构：

Electrotubbie

原始信息汇总

突厥语系语言模型的三元组数据集

描述

该数据集旨在测试模型处理下一句预测（NSP）和句子顺序预测（SOP）的能力。它包含两个子集，每个子集由文本三元组组成。

用途

该数据集可用于训练和评估能够执行NSP和SAP任务的模型。

数据集结构

数据集中的每个条目包含以下三个值：

text: 一个文本三元组；
flag: 一个标志，指示该三元组中的句子顺序是否正确；
lang: 句子所属的语言。

创建过程

使用github上描述的功能对来自dataset的文本进行预处理和分析，并根据特定规则选择三元组（三元组的长度应大致相同，且在30到100个字符之间）。此外，选择三元组时确保数据集中没有句子重复出现多次。

5,000+

优质数据集

54 个

任务类型

进入经典数据集