five

Electrotubbie/triplets_Turkic_languages

收藏
Hugging Face2024-01-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Electrotubbie/triplets_Turkic_languages
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集旨在测试模型在处理下一句预测(NSP)和句子顺序预测(SOP)任务时的表现。它包含两个子集,每个子集由文本三元组组成。每个条目包含三个值:文本三元组、指示句子顺序是否正确的标志以及句子语言。数据集的创建过程包括使用特定规则从预处理和分析的文本中选择三元组,确保三元组的长度大致相同且在30到100个字符之间,并且没有句子在数据集中重复出现。

该数据集旨在测试模型在处理下一句预测(NSP)和句子顺序预测(SOP)任务时的表现。它包含两个子集,每个子集由文本三元组组成。每个条目包含三个值:文本三元组、指示句子顺序是否正确的标志以及句子语言。数据集的创建过程包括使用特定规则从预处理和分析的文本中选择三元组,确保三元组的长度大致相同且在30到100个字符之间,并且没有句子在数据集中重复出现。
提供机构:
Electrotubbie
原始信息汇总

突厥语系语言模型的三元组数据集

描述

该数据集旨在测试模型处理下一句预测(NSP)和句子顺序预测(SOP)的能力。它包含两个子集,每个子集由文本三元组组成。

用途

该数据集可用于训练和评估能够执行NSP和SAP任务的模型。

数据集结构

数据集中的每个条目包含以下三个值:

  • text: 一个文本三元组;
  • flag: 一个标志,指示该三元组中的句子顺序是否正确;
  • lang: 句子所属的语言。

创建过程

使用github上描述的功能对来自dataset的文本进行预处理和分析,并根据特定规则选择三元组(三元组的长度应大致相同,且在30到100个字符之间)。此外,选择三元组时确保数据集中没有句子重复出现多次。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作