projecte-aina/Parafraseja
收藏Hugging Face2024-11-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/Parafraseja
下载链接
链接失效反馈官方服务:
资源简介:
Parafraseja是一个包含21,984对句子的数据集,每对句子都有一个标签指示它们是否为复述。原始句子来自TE-ca和STS-ca数据集。对于每个句子,注释者编写了一个复述句子和一个非复述句子。该数据集主要用于训练模型进行复述检测,语言为加泰罗尼亚语(Catalan)。数据集的创建旨在为加泰罗尼亚语这种低资源语言的语言模型开发做出贡献。数据集的结构包括原始句子、新句子和标签,数据分割为训练集、验证集和测试集。
Parafraseja is a dataset containing 21,984 sentence pairs, each paired with a label indicating whether the two sentences are paraphrases. The original sentences are sourced from the TE-ca and STS-ca datasets. For each original sentence, annotators generated both a paraphrastic sentence and a non-paraphrastic sentence. This dataset is primarily used for training models for paraphrase detection, and it is in the Catalan language. The dataset was developed to contribute to the development of language models for Catalan, a low-resource language. The dataset structure includes original sentences, newly generated sentences, and corresponding labels, with the data split into training, validation, and test sets.
提供机构:
projecte-aina
原始信息汇总
数据集概述
数据集名称
- 名称: Parafraseja
数据集摘要
支持的任务和排行榜
- 任务: 主要用于训练同义句检测模型。
语言
- 语言: 加泰罗尼亚语 (
ca-ES)
数据集结构
- 格式: JSONL
- 实例结构:
id: 实例IDsource: 数据源original: 原始句子new: 新句子,可能是同义句或非同义句label: 原始句子与新句子之间的关系标签
- 数据分割:
dev.json: 2,000 个示例test.json: 4,000 个示例train.json: 15,984 个示例



