projecte-aina/Parafraseja

Name: projecte-aina/Parafraseja
Creator: projecte-aina
Published: 2024-11-27 15:32:10
License: 暂无描述

Hugging Face2024-11-27 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/projecte-aina/Parafraseja

下载链接

链接失效反馈

官方服务：

资源简介：

Parafraseja是一个包含21,984对句子的数据集，每对句子都有一个标签指示它们是否为复述。原始句子来自TE-ca和STS-ca数据集。对于每个句子，注释者编写了一个复述句子和一个非复述句子。该数据集主要用于训练模型进行复述检测，语言为加泰罗尼亚语（Catalan）。数据集的创建旨在为加泰罗尼亚语这种低资源语言的语言模型开发做出贡献。数据集的结构包括原始句子、新句子和标签，数据分割为训练集、验证集和测试集。

Parafraseja is a dataset containing 21,984 sentence pairs, each paired with a label indicating whether the two sentences are paraphrases. The original sentences are sourced from the TE-ca and STS-ca datasets. For each original sentence, annotators generated both a paraphrastic sentence and a non-paraphrastic sentence. This dataset is primarily used for training models for paraphrase detection, and it is in the Catalan language. The dataset was developed to contribute to the development of language models for Catalan, a low-resource language. The dataset structure includes original sentences, newly generated sentences, and corresponding labels, with the data split into training, validation, and test sets.

提供机构：

projecte-aina

原始信息汇总

数据集概述

数据集名称

名称: Parafraseja

数据集摘要

摘要: Parafraseja 是一个包含 21,984 对句子的数据集，每对句子都有一个标签，指示它们是否为同义句。原始句子收集自 TE-ca 和 STS-ca。

支持的任务和排行榜

任务: 主要用于训练同义句检测模型。

语言

语言: 加泰罗尼亚语 (ca-ES)

数据集结构

格式: JSONL
实例结构:
- id: 实例ID
- source: 数据源
- original: 原始句子
- new: 新句子，可能是同义句或非同义句
- label: 原始句子与新句子之间的关系标签
数据分割:
- dev.json: 2,000 个示例
- test.json: 4,000 个示例
- train.json: 15,984 个示例

数据集创建

来源数据: 来自 STS-ca 和 TE-ca。
注释过程: 由一名注释者完成，另一名进行审核。
注释者: 加泰罗尼亚语母语者，具有语言学背景。

许可证

许可证: Creative Commons Attribution Non-commercial No-Derivatives 4.0 International License

5,000+

优质数据集

54 个

任务类型

进入经典数据集