five

projecte-aina/Parafraseja

收藏
Hugging Face2024-11-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/Parafraseja
下载链接
链接失效反馈
官方服务:
资源简介:
Parafraseja是一个包含21,984对句子的数据集,每对句子都有一个标签指示它们是否为复述。原始句子来自TE-ca和STS-ca数据集。对于每个句子,注释者编写了一个复述句子和一个非复述句子。该数据集主要用于训练模型进行复述检测,语言为加泰罗尼亚语(Catalan)。数据集的创建旨在为加泰罗尼亚语这种低资源语言的语言模型开发做出贡献。数据集的结构包括原始句子、新句子和标签,数据分割为训练集、验证集和测试集。

Parafraseja is a dataset containing 21,984 sentence pairs, each paired with a label indicating whether the two sentences are paraphrases. The original sentences are sourced from the TE-ca and STS-ca datasets. For each original sentence, annotators generated both a paraphrastic sentence and a non-paraphrastic sentence. This dataset is primarily used for training models for paraphrase detection, and it is in the Catalan language. The dataset was developed to contribute to the development of language models for Catalan, a low-resource language. The dataset structure includes original sentences, newly generated sentences, and corresponding labels, with the data split into training, validation, and test sets.
提供机构:
projecte-aina
原始信息汇总

数据集概述

数据集名称

  • 名称: Parafraseja

数据集摘要

  • 摘要: Parafraseja 是一个包含 21,984 对句子的数据集,每对句子都有一个标签,指示它们是否为同义句。原始句子收集自 TE-caSTS-ca

支持的任务和排行榜

  • 任务: 主要用于训练同义句检测模型。

语言

  • 语言: 加泰罗尼亚语 (ca-ES)

数据集结构

  • 格式: JSONL
  • 实例结构:
    • id: 实例ID
    • source: 数据源
    • original: 原始句子
    • new: 新句子,可能是同义句或非同义句
    • label: 原始句子与新句子之间的关系标签
  • 数据分割:
    • dev.json: 2,000 个示例
    • test.json: 4,000 个示例
    • train.json: 15,984 个示例

数据集创建

  • 来源数据: 来自 STS-caTE-ca
  • 注释过程: 由一名注释者完成,另一名进行审核。
  • 注释者: 加泰罗尼亚语母语者,具有语言学背景。

许可证

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作