five

Heng666/Traditional_Chinese-aya_collection

收藏
Hugging Face2024-02-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Heng666/Traditional_Chinese-aya_collection
下载链接
链接失效反馈
官方服务:
资源简介:
`繁體中文 Aya` 是一個精心策劃的資料集,源自 [CohereForAI](https://huggingface.co/CohereForAI) 的綜合 Aya 集合,特別關注繁體中文文本資料。此資料集結合了來自 [CohereForAI/aya_collection](https://huggingface.co/datasets/CohereForAI/aya_collection),過濾掉除繁體中文、簡體中文內容之外的所有內容。目標是為研究人員、技術專家和語言學家提供即用型繁體中文文本資源,顯著減少專注於繁體中文的 NLP 和 AI 專案中數據預處理所需的時間和精力。

`繁體中文 Aya` 是一個精心策劃的資料集,源自 [CohereForAI](https://huggingface.co/CohereForAI) 的綜合 Aya 集合,特別關注繁體中文文本資料。此資料集結合了來自 [CohereForAI/aya_collection](https://huggingface.co/datasets/CohereForAI/aya_collection),過濾掉除繁體中文、簡體中文內容之外的所有內容。目標是為研究人員、技術專家和語言學家提供即用型繁體中文文本資源,顯著減少專注於繁體中文的 NLP 和 AI 專案中數據預處理所需的時間和精力。
提供机构:
Heng666
原始信息汇总

数据集概述

数据集列表

1. aya_dataset

  • 特征:
    • id: int64
    • inputs: string
    • targets: string
    • dataset_name: string
    • sub_dataset_name: string
    • task_type: string
    • template_id: string
    • language_code: string
    • split: string
    • script: string
  • 分割:
    • train: 4909个样本, 1703870字节
  • 下载大小: 998499字节
  • 数据集大小: 1703870字节

2. templated_ntx_llm

  • 特征:
    • id: int64
    • inputs: string
    • targets: string
    • dataset_name: string
    • sub_dataset_name: string
    • task_type: string
    • template_id: string
    • language_code: string
    • split: string
    • script: string
  • 分割:
    • train: 256个样本, 402016字节
  • 下载大小: 49658字节
  • 数据集大小: 402016字节

3. templated_uner_llm

  • 特征:
    • id: int64
    • inputs: string
    • targets: string
    • dataset_name: string
    • sub_dataset_name: string
    • task_type: string
    • template_id: string
    • language_code: string
    • split: string
    • script: string
  • 分割:
    • train: 7992个样本, 8259554字节
    • test: 1997个样本, 2349655字节
    • validation: 998个样本, 1073059字节
  • 下载大小: 2001352字节
  • 数据集大小: 11682268字节

4. templated_xcsqa

  • 特征:
    • id: int64
    • inputs: string
    • targets: string
    • dataset_name: string
    • sub_dataset_name: string
    • task_type: string
    • template_id: string
    • language_code: string
    • split: string
    • script: string
  • 分割:
    • validation: 1000个样本, 297261字节
  • 下载大小: 104307字节
  • 数据集大小: 297261字节

5. templated_xlel_wd

  • 特征:
    • id: int64
    • inputs: string
    • targets: string
    • dataset_name: string
    • sub_dataset_name: string
    • task_type: string
    • template_id: string
    • language_code: string
    • split: string
    • script: string
  • 分割:
    • train: 50949个样本, 40044968字节
    • test: 6637个样本, 5192254字节
    • validation: 6399个样本, 4999716字节
  • 下载大小: 31048776字节
  • 数据集大小: 50236938字节

6. templated_xwikis

  • 特征:
    • id: int64
    • inputs: string
    • targets: string
    • dataset_name: string
    • sub_dataset_name: string
    • task_type: string
    • template_id: string
    • language_code: string
    • split: string
    • script: string
  • 分割:
    • train: 31276个样本, 147846215字节
    • test: 6998个样本, 34828372字节
    • validation: 14998个样本, 65882386字节
  • 下载大小: 168472726字节
  • 数据集大小: 248556973字节

7. translated_adversarial_qa

  • 特征:
    • id: int64
    • inputs: string
    • targets: string
    • dataset_name: string
    • sub_dataset_name: string
    • task_type: string
    • template_id: string
    • language_code: string
    • split: string
    • script: string
  • 分割:
    • train: 20000个样本, 13844756字节
    • test: 2000个样本, 1505596字节
    • validation: 2000个样本, 1392335字节
  • 下载大小: 6348021字节
  • 数据集大小: 16742687字节

8. translated_cnn_dailymail

  • 特征:
    • id: int64
    • inputs: string
    • targets: string
    • dataset_name: string
    • sub_dataset_name: string
    • task_type: string
    • template_id: string
    • language_code: string
    • split: string
    • script: string
  • 分割:
    • train: 200000个样本, 284764459字节
    • test: 22980个样本, 33310796字节
    • validation: 26736个样本, 39146476字节
  • 下载大小: 228280361字节
  • 数据集大小: 357221731字节

9. translated_dolly

  • 特征:
    • id: int64
    • inputs: string
    • targets: string
    • dataset_name: string
    • sub_dataset_name: string
    • task_type: string
    • template_id: string
    • language_code: string
    • split: string
    • script: string
  • 分割:
    • train: 29616个样本, 21966259字节
  • 下载大小: 12062356字节
  • 数据集大小: 21966259字节

10. translated_flan_coqa

  • 特征:
    • id: int64
    • inputs: string
    • targets: string
    • dataset_name: string
    • sub_dataset_name: string
    • task_type: string
    • template_id: string
    • language_code: string
    • split: string
    • script: string
  • 分割:
    • train: 12818个样本, 26455946字节
  • 下载大小: 16080989字节
  • 数据集大小: 26455946字节

11. translated_flan_cot

  • 特征:
    • id: int64
    • inputs: string
    • targets: string
    • dataset_name: string
    • sub_dataset_name: string
    • task_type: string
    • template_id: string
    • language_code: string
    • split: string
    • script: string
  • 分割:
    • train: 183820个样本, 72401586字节
  • 下载大小: 34564552字节
  • 数据集大小: 72401586字节

12. translated_flan_gem_wiki

  • 特征:
    • id: int64
    • inputs: string
    • targets: string
    • dataset_name: string
    • sub_dataset_name: string
    • task_type: string
    • template_id: string
    • language_code: string
    • split: string
    • script: string
  • 分割:
    • train: 54294个样本, 84073165字节
  • 下载大小: 52363999字节
  • 数据集大小: 84073165字节

13. translated_flan_lambada

  • 特征:
    • id: int64
    • inputs: string
    • targets: string
    • dataset_name: string
    • sub_dataset_name: string
    • task_type: string
    • template_id: string
    • language_code: string
    • split: string
    • script: string
  • 分割:
    • train: 8558个样本, 2236958字节
  • 下载大小: 1156298字节
  • 数据集大小: 2236958字节

14. translated_flan_qa

  • 特征:
    • id: int64
    • inputs: string
    • targets: string
    • dataset_name: string
    • sub_dataset_name: string
    • task_type: string
    • template_id: string
    • language_code: string
    • split: string
    • script: string
  • 分割:
    • train: 1080个样本, 355221字节
  • 下载大小: 166753字节
  • 数据集大小: 355221字节

15. translated_hotpotqa

  • 特征:
    • id: int64
    • inputs: string
    • targets: string
    • dataset_name: string
    • sub_dataset_name: string
    • task_type: string
    • template_id: string
    • language_code: string
    • split: string
    • script: string
  • 分割:
    • train: 710952个样本, 140638090字节
  • 下载大小: 51704787字节
  • 数据集大小: 140638090字节

16. translated_joke_explaination

  • 特征:
    • id: int64
    • inputs: string
    • targets: string
    • dataset_name: string
    • sub_dataset_name: string
    • task_type: string
    • template_id: string
    • language_code: string
    • split: string
    • script: string
  • 分割:
    • train: 1508个样本, 789677字节
  • 下载大小: 343907字节
  • 数据集大小: 789677字节

17. translated_mintaka

  • 特征:
    • id: int64
    • inputs: string
    • targets: string
    • dataset_name: string
    • sub_dataset_name: string
    • task_type: string
    • template_id: string
    • language_code: string
    • split: string
    • script: string
  • 分割:
    • train: 28000个样本, 5661977字节
    • test: 8000个样本, 1608641字节
    • validation: 4000个样本, 829827字节
  • 下载大小: 1732447字节
  • 数据集大小: 8100445字节

18. translated_mlqa

  • 特征:
    • id: int64
    • inputs: string
    • targets: string
    • dataset_name: string
    • sub_dataset_name: string
    • task_type: string
    • template_id: string
    • language_code: string
    • split: string
    • script: string
  • 分割:
    • test: 46360个样本, 36734954字节
    • validation: 4592个样本, 3563390字节
  • 下载大小: 21052230字节
  • 数据集大小: 40298344字节

19. translated_nqopen

  • 特征:
    • id: int64
    • inputs: string
    • targets: string
    • dataset_name: string
    • sub_dataset_name: string
    • task_type: string
    • template_id: string
    • language_code: string
    • split: string
    • script: string
  • 分割:
    • train: 351700个样本, 56945959字节
  • 下载大小: 19578926字节
  • 数据集大小: 56945959字节

20. translated_paws

  • 特征:
    • id: int64
    • inputs: string
    • targets: string
    • dataset_name: string
    • sub_dataset_name: string
    • task_type: string
    • template_id: string
    • language_code: string
    • split: string
    • script: string
  • 分割:
    • train: 98802个样本, 34768722字节
    • test: 16000个样本, 5625712字节
    • validation: 16000个样本, 5721186字节
  • 下载大小: 8291033字节
  • 数据集大小: 46115620字节

21. translated_piqa

  • 特征:
    • id: int64
    • inputs: string
    • targets: string
    • dataset_name: string
    • sub_dataset_name: string
    • task_type: string
    • template_id: string
    • language_code: string
    • split: string
    • script: string
  • 分割:
    • train: 32226个样本, 11873740字节
  • 下载大小: 4759498字节
  • 数据集大小: 11873740字节

22. translated_wikiqa

  • 特征:
    • id: int64
    • inputs: string
    • targets: string
    • dataset_name: string
    • sub_dataset_name: string
    • task_type: string
    • template_id: string
    • language_code: string
    • split: string
    • script: string
  • 分割:
    • train: 2080个样本, 551856字节
    • test: 586个样本, 154223字节
    • validation: 280个样本, 78316字节
  • 下载大小: 387555字节
  • 数据集大小: 784395字节
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作