five

alighasemi/fa-paraphrase

收藏
Hugging Face2022-12-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/alighasemi/fa-paraphrase
下载链接
链接失效反馈
官方服务:
资源简介:
--- Tasks: - Text2Text Generation Fine-Grained Tasks: - paraphrase - query-paraphrasing Languages: - Persian Multilinguality: - monolingual - fa - fa-IR Sizes: - n>1M dataset_info: features: - name: sentence1 dtype: string - name: sentence2 dtype: string splits: - name: train num_bytes: 139373682.4 num_examples: 881408 - name: test num_bytes: 17421710.3 num_examples: 110176 - name: validation num_bytes: 17421710.3 num_examples: 110176 download_size: 98032993 dataset_size: 174217103.00000003 --- # Dataset Card for "fa-paraphrase" This dataset contains over 1.1 million rows. Each row contains a pair of Farsi sentences which are a paraphrase of each other. The datasets used to create this dataset can be found here: * [tapaco](https://huggingface.co/datasets/tapaco) * [kaggle](https://www.kaggle.com/datasets/armannikkhah/persian-paraphrase-dataset) [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
alighasemi
原始信息汇总

数据集概述

基本信息

  • 任务类型:Text2Text Generation
  • 细粒度任务
    • paraphrase
    • query-paraphrasing
  • 语言:Persian
  • 多语言性:monolingual, fa, fa-IR
  • 数据集大小:n>1M

数据集结构

  • 特征
    • sentence1:string
    • sentence2:string
  • 分割
    • 训练集
      • 大小:139373682.4 bytes
      • 示例数:881408
    • 测试集
      • 大小:17421710.3 bytes
      • 示例数:110176
    • 验证集
      • 大小:17421710.3 bytes
      • 示例数:110176
  • 下载大小:98032993 bytes
  • 数据集总大小:174217103.00000003 bytes

数据集内容

  • 包含超过110万行数据,每行包含一对波斯语句子,这些句子是彼此的释义。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作