CCRss/qqp-Quora_Question_Pairs-kz
收藏Hugging Face2023-12-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CCRss/qqp-Quora_Question_Pairs-kz
下载链接
链接失效反馈官方服务:
资源简介:
Kazakh Question Paraphrasing Dataset是一个用于哈萨克语文本生成任务的数据集,特别适用于文本转文本生成。该数据集来源于Quora Question Pairs,经过机器翻译和哈萨克语母语者的修订,确保了语言的准确性和上下文的一致性。数据集适用于计算语言学领域的研究人员和开发者,用于训练和评估哈萨克语的文本生成模型。每个数据条目包含一个‘src’(源问题)和一个‘trg’(目标或转述问题),为理解哈萨克语中问题转述的细微差别提供了全面的资源。
Kazakh Question Paraphrasing Dataset is a dataset dedicated to Kazakh text generation tasks, particularly text-to-text generation. It is derived from the Quora Question Pairs dataset, and has been processed via machine translation followed by revision by native Kazakh speakers to guarantee linguistic accuracy and contextual consistency. The dataset is designed for researchers and developers in the field of computational linguistics, for training and evaluating Kazakh text generation models. Each data entry contains a 'src' (source question) and a 'trg' (target or paraphrased question), providing a comprehensive resource for understanding the nuances of question paraphrasing in the Kazakh language.
提供机构:
CCRss
原始信息汇总
哈萨克语问题复述数据集
数据集概述
哈萨克语问题复述数据集是为哈萨克语中的复述任务设计的宝贵资源,有助于开发和评估能够理解和生成复述内容同时保留原始意义的模型。
来源和翻译过程
数据集源自Quora问题对,并已由专家翻译成哈萨克语。翻译过程包括初始机器翻译,随后由哈萨克语母语者进行彻底修订,确保语言的细微差别和上下文完整性得以保留。
用途和应用
该数据集主要面向计算语言学领域的研究人员和开发者,专注于哈萨克语。它是创建和微调复述算法的优秀工具,增强语言模型对哈萨克语中语义相似性和变化的认知。
数据集总结
数据集"CCRss/qqp-Quora_Question_Pairs-kz"是一个丰富的哈萨克语问题对集合,适用于训练和评估自然语言处理模型。每个条目包含一个src(源问题)和一个trg(目标或复述问题),为理解哈萨克语中问题复述的细微差别提供了全面的资源。



