five

community-datasets/tapaco

收藏
Hugging Face2024-06-26 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/tapaco
下载链接
链接失效反馈
官方服务:
资源简介:
TaPaCo语料库是一个多语言数据集,涵盖了多种语言,包括但不限于南非荷兰语、阿拉伯语、阿塞拜疆语、白俄罗斯语、柏柏尔语、保加利亚语、孟加拉语、布列塔尼语、加泰罗尼亚语、查瓦卡诺语、汉语、捷克语、丹麦语、德语、希腊语、英语、世界语、西班牙语、爱沙尼亚语、巴斯克语、芬兰语、法语、加利西亚语、古撒克逊语、希伯来语、印地语、克罗地亚语、匈牙利语、亚美尼亚语、国际语、印度尼西亚语、国际辅助语、伊多语、冰岛语、意大利语、日语、逻辑语、卡拜尔语、韩语、康沃尔语、拉丁语、林加拉语、立陶宛语、马其顿语、马拉地语、挪威博克马尔语、低地德语、荷兰语、古教会斯拉夫语、奥斯曼土耳其语、波斯语、波兰语、葡萄牙语、基隆迪语、罗马尼亚语、俄语、斯洛文尼亚语、塞尔维亚语、瑞典语、土库曼语、他加禄语、克林贡语、托克皮辛语、土耳其语、鞑靼语、维吾尔语、乌克兰语、乌尔都语、越南语、沃拉普克语、瓦瑞语、吴语和粤语。该数据集由机器生成并通过众包方式创建,适用于文本生成、翻译和文本分类等任务。

The TaPaCo Corpus is a multilingual dataset covering a wide range of languages, including but not limited to Afrikaans, Arabic, Azerbaijani, Belarusian, Berber, Bulgarian, Bengali, Breton, Catalan, Chavacano, Chinese, Czech, Danish, German, Greek, English, Esperanto, Spanish, Estonian, Basque, Finnish, French, Galician, Old Saxon, Hebrew, Hindi, Croatian, Hungarian, Armenian, Interlingua, Indonesian, Interlingue, Ido, Icelandic, Italian, Japanese, Lojban, Kabyle, Korean, Cornish, Latin, Lingala, Lithuanian, Macedonian, Marathi, Norwegian Bokmål, Low German, Dutch, Old Church Slavonic, Ottoman Turkish, Persian, Polish, Portuguese, Kirundi, Romanian, Russian, Slovenian, Serbian, Swedish, Turkmen, Tagalog, Klingon, Tok Pisin, Turkish, Tatar, Uyghur, Ukrainian, Urdu, Vietnamese, Volapük, Waray, Wu Chinese, and Yue Chinese. The dataset is machine-generated and crowdsourced, suitable for tasks such as text generation, translation, and text classification.
提供机构:
community-datasets
原始信息汇总

数据集概述

基本信息

  • 数据集名称: TaPaCo Corpus
  • 数据集别名: tapaco
  • 数据集标签: paraphrase-generation
  • 许可证: cc-by-2.0
  • 多语言性: 多语言
  • 数据规模:
    • 100K<n<1M
    • 10K<n<100K
    • 1K<n<10K
    • 1M<n<10M
    • n<1K
  • 任务类别:
    • text2text-generation
    • translation
    • text-classification
  • 任务ID: semantic-similarity-classification
  • 源数据集: extended|other-tatoeba

数据集配置

  • 配置名称: all_languages

    • 特征:
      • paraphrase_set_id: string
      • sentence_id: string
      • paraphrase: string
      • lists: sequence of string
      • tags: sequence of string
      • language: string
    • 分割:
      • train
        • 字节数: 162802556
        • 样本数: 1926192
    • 下载大小: 32213126
    • 数据集大小: 162802556
  • 配置名称: af

    • 特征:
      • paraphrase_set_id: string
      • sentence_id: string
      • paraphrase: string
      • lists: sequence of string
      • tags: sequence of string
      • language: string
    • 分割:
      • train
        • 字节数: 21219
        • 样本数: 307
    • 下载大小: 32213126
    • 数据集大小: 21219
  • 配置名称: ar

    • 特征:
      • paraphrase_set_id: string
      • sentence_id: string
      • paraphrase: string
      • lists: sequence of string
      • tags: sequence of string
      • language: string
    • 分割:
      • train
        • 字节数: 546200
        • 样本数: 6446
    • 下载大小: 32213126
    • 数据集大小: 546200
  • 配置名称: az

    • 特征:
      • paraphrase_set_id: string
      • sentence_id: string
      • paraphrase: string
      • lists: sequence of string
      • tags: sequence of string
      • language: string
    • 分割:
      • train
        • 字节数: 44461
        • 样本数: 624
    • 下载大小: 32213126
    • 数据集大小: 44461
  • 配置名称: be

    • 特征:
      • paraphrase_set_id: string
      • sentence_id: string
      • paraphrase: string
      • lists: sequence of string
      • tags: sequence of string
      • language: string
    • 分割:
      • train
        • 字节数: 140376
        • 样本数: 1512
    • 下载大小: 32213126
    • 数据集大小: 140376
  • 配置名称: ber

    • 特征:
      • paraphrase_set_id: string
      • sentence_id: string
      • paraphrase: string
      • lists: sequence of string
      • tags: sequence of string
      • language: string
    • 分割:
      • train
        • 字节数: 5118620
        • 样本数: 67484
    • 下载大小: 32213126
    • 数据集大小: 5118620
  • 配置名称: bg

    • 特征:
      • paraphrase_set_id: string
      • sentence_id: string
      • paraphrase: string
      • lists: sequence of string
      • tags: sequence of string
      • language: string
    • 分割:
      • train
        • 字节数: 590535
        • 样本数: 6324
    • 下载大小: 32213126
    • 数据集大小: 590535
  • 配置名称: bn

    • 特征:
      • paraphrase_set_id: string
      • sentence_id: string
      • paraphrase: string
      • lists: sequence of string
      • tags: sequence of string
      • language: string
    • 分割:
      • train
        • 字节数: 146654
        • 样本数: 1440
    • 下载大小: 32213126
    • 数据集大小: 146654
  • 配置名称: br

    • 特征:
      • paraphrase_set_id: string
      • sentence_id: string
      • paraphrase: string
      • lists: sequence of string
      • tags: sequence of string
      • language: string
    • 分割:
      • train
        • 字节数: 177919
        • 样本数: 2536
    • 下载大小: 32213126
    • 数据集大小: 177919
  • 配置名称: ca

    • 特征:
      • paraphrase_set_id: string
      • sentence_id: string
      • paraphrase: string
      • lists: sequence of string
      • tags: sequence of string
      • language: string
    • 分割:
      • train
        • 字节数: 39404
        • 样本数: 518
    • 下载大小: 32213126
    • 数据集大小: 39404
  • 配置名称: cbk

    • 特征:
      • paraphrase_set_id: string
      • sentence_id: string
      • paraphrase: string
      • lists: sequence of string
      • tags: sequence of string
      • language: string
    • 分割:
      • train
        • 字节数: 19404
        • 样本数: 262
    • 下载大小: 32213126
    • 数据集大小: 19404
  • 配置名称: cmn

    • 特征:
      • paraphrase_set_id: string
      • sentence_id: string
      • paraphrase: string
      • lists: sequence of string
      • tags: sequence of string
      • language: string
    • 分割:
      • train
        • 字节数: 964514
        • 样本数: 12549
    • 下载大小: 32213126
    • 数据集大小: 964514
  • 配置名称: cs

    • 特征:
      • paraphrase_set_id: string
      • sentence_id: string
      • paraphrase: string
      • lists: sequence of string
      • tags: sequence of string
      • language: string
    • 分割:
      • train
        • 字节数: 482292
        • 样本数: 6659
    • 下载大小: 32213126
    • 数据集大小: 482292
  • 配置名称: da

    • 特征:
      • paraphrase_set_id: string
      • sentence_id: string
      • paraphrase: string
      • lists: sequence of string
      • tags: sequence of string
      • language: string
    • 分割:
      • train
        • 字节数: 848886
        • 样本数: 11220
    • 下载大小: 32213126
    • 数据集大小: 848886
  • 配置名称: de

    • 特征:
      • paraphrase_set_id: string
      • sentence_id: string
      • paraphrase: string
      • lists: sequence of string
      • tags: sequence of string
      • language: string
    • 分割:
      • train
        • 字节数: 10593377
        • 样本数: 125091
    • 下载大小: 32213126
    • 数据集大小: 10593377
  • 配置名称: el

    • 特征:
      • paraphrase_set_id: string
      • sentence_id: string
      • paraphrase: string
      • lists: sequence of string
      • tags: sequence of string
      • language: string
    • 分割:
      • train
        • 字节数: 926054
        • 样本数: 10072
    • 下载大小: 32213126
    • 数据集大小: 926054
  • 配置名称: en

    • 特征:
      • paraphrase_set_id: string
      • sentence_id: string
      • paraphrase: string
      • lists: sequence of string
      • tags: sequence of string
      • language: string
    • 分割:
      • train
        • 字节数: 15070349
        • 样本数: 158053
    • 下载大小: 32213126
    • 数据集大小: 15070349
  • 配置名称: eo

    • 特征:
      • paraphrase_set_id: string
      • sentence_id: string
      • paraphrase: string
      • lists: sequence of string
      • tags: sequence of string
      • language: string
    • 分割:
      • train
        • 字节数: 16810965
        • 样本数: 207105
    • 下载大小: 32213126
    • 数据集大小: 16810965
  • 配置名称: es

    • 特征:
      • paraphrase_set_id: string
      • sentence_id: string
      • paraphrase: string
      • lists: sequence of string
      • tags: sequence of string
      • language: string
    • 分割:
      • train
        • 字节数: 6851135
        • 样本数: 85064
    • 下载大小: 32213126
    • 数据集大小: 6851135
  • 配置名称: et

    • 特征:
      • paraphrase_set_id: string
      • sentence_id: string
      • paraphrase: string
      • lists: sequence of string
      • tags: sequence of string
      • language: string
    • 分割:
      • train
        • 字节数: 17127
        • 样本数: 241
    • 下载大小: 32213126
    • 数据集大小: 17127
  • 配置名称: eu

    • 特征:
      • paraphrase_set_id: string
      • sentence_id: string
      • paraphrase: string
      • lists: sequence of string
      • tags: sequence of string
      • language: string
    • 分割:
      • train
        • 字节数: 42702
        • 样本数: 573
    • 下载大小: 32213126
    • 数据集大小: 42702
  • 配置名称: fi

    • 特征:
      • paraphrase_set_id: string
      • sentence_id: string
      • paraphrase: string
      • lists: sequence of string
      • tags: sequence of string
      • language: string
    • 分割:
      • train
        • 字节数: 2520167
        • 样本数: 31753
    • 下载大小: 32213126
    • 数据集大小: 2520167
  • 配置名称: fr

    • 特征:
      • paraphrase_set_id: string
      • sentence_id: string
      • paraphrase: string
      • lists: sequence of string
      • tags: sequence of string
      • language: string
    • 分割:
      • train
        • 字节数: 9481426
        • 样本数: 116733
    • 下载大小: 32213126
    • 数据集大小: 9481426
  • 配置名称: gl

    • 特征:
      • paraphrase_set_id: string
      • sentence_id: string
      • paraphrase: string
      • lists: sequence of string
      • tags: sequence of string
      • language: string
    • 分割:
      • train
        • 字节数: 26551
        • 样本数: 351
    • 下载大小: 32213126
    • 数据集大小: 26551
  • 配置名称: gos

    • 特征:
      • paraphrase_set_id: string
      • sentence_id: string
      • paraphrase: string
      • lists: sequence of string
      • tags: sequence of string
      • language: string
    • 分割:
      • train
        • 字节数: 18442
        • 样本数: 279
    • 下载大小: 32213126
    • 数据集大小: 18442
  • 配置名称: he

    • 特征:
      • paraphrase_set_id: string
      • sentence_id: string
      • paraphrase: string
      • lists: sequence of string
      • tags: sequence of string
      • language: string
    • 分割:
      • train
        • 字节数: 6024345
        • 样本数: 68350
    • 下载大小: 32213126
    • 数据集大小: 6024345
  • 配置名称: hi

    • 特征:
      • paraphrase_set_id: string
      • sentence_id: string
      • paraphrase: string
      • lists: sequence of string
      • tags: sequence of string
      • language: string
    • 分割:
      • train
        • 字节数: 209382
        • 样本数: 1913
    • 下载大小: 32213126
    • 数据集大小: 209382
  • 配置名称: hr

    • 特征:
      • paraphrase_set_id: string
      • sentence_id: string
      • paraphrase: string
      • lists: sequence of string
      • tags: sequence of string
      • language: string
    • 分割:
      • train
        • 字节数: 36638
        • 样本数: 505
    • 下载大小: 32213126
    • 数据集大小: 36638
  • 配置名称: hu

    • 特征:
      • paraphrase_set_id: string
      • sentence_id: string
      • paraphrase: string
      • lists: sequence of string
      • tags: sequence of string
      • language: string
    • 分割:
      • train
        • 字节数: 5289610
        • 样本数: 67964
    • 下载大小: 32213126
    • 数据集大小: 5289610
  • 配置名称: hy

    • 特征:
      • paraphrase_set_id: string
      • sentence_id: string
      • paraphrase: string
      • lists: sequence of string
      • tags: sequence of string
      • language: string
    • 分割:
      • train
        • 字节数: 49230
        • 样本数: 603
    • 下载大小: 32213126
    • 数据集大小: 49230
  • 配置名称: ia

    • 特征:
      • paraphrase_set_id: string
      • sentence_id: string
      • paraphrase: string
      • lists
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
TaPaCo是一个包含73种语言、190万句子对的多语言释义语料库,数据来源于Tatoeba数据库的句子等价关系图。该数据集特别适合用于多语言环境下的释义生成和检测任务的模型训练与评估。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作