Heng666/Traditional_Chinese-aya_collection

Name: Heng666/Traditional_Chinese-aya_collection
Creator: Heng666
Published: 2024-02-19 14:09:17
License: 暂无描述

Hugging Face2024-02-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Heng666/Traditional_Chinese-aya_collection

下载链接

链接失效反馈

官方服务：

资源简介：

`繁體中文 Aya` 是一個精心策劃的資料集，源自 [CohereForAI](https://huggingface.co/CohereForAI) 的綜合 Aya 集合，特別關注繁體中文文本資料。此資料集結合了來自 [CohereForAI/aya_collection](https://huggingface.co/datasets/CohereForAI/aya_collection)，過濾掉除繁體中文、簡體中文內容之外的所有內容。目標是為研究人員、技術專家和語言學家提供即用型繁體中文文本資源，顯著減少專注於繁體中文的 NLP 和 AI 專案中數據預處理所需的時間和精力。

提供机构：

Heng666

原始信息汇总

数据集概述

数据集列表

1. aya_dataset

特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
分割:
- train: 4909个样本, 1703870字节
下载大小: 998499字节
数据集大小: 1703870字节

2. templated_ntx_llm

特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
分割:
- train: 256个样本, 402016字节
下载大小: 49658字节
数据集大小: 402016字节

3. templated_uner_llm

特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
分割:
- train: 7992个样本, 8259554字节
- test: 1997个样本, 2349655字节
- validation: 998个样本, 1073059字节
下载大小: 2001352字节
数据集大小: 11682268字节

4. templated_xcsqa

特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
分割:
- validation: 1000个样本, 297261字节
下载大小: 104307字节
数据集大小: 297261字节

5. templated_xlel_wd

特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
分割:
- train: 50949个样本, 40044968字节
- test: 6637个样本, 5192254字节
- validation: 6399个样本, 4999716字节
下载大小: 31048776字节
数据集大小: 50236938字节

6. templated_xwikis

特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
分割:
- train: 31276个样本, 147846215字节
- test: 6998个样本, 34828372字节
- validation: 14998个样本, 65882386字节
下载大小: 168472726字节
数据集大小: 248556973字节

7. translated_adversarial_qa

特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
分割:
- train: 20000个样本, 13844756字节
- test: 2000个样本, 1505596字节
- validation: 2000个样本, 1392335字节
下载大小: 6348021字节
数据集大小: 16742687字节

8. translated_cnn_dailymail

特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
分割:
- train: 200000个样本, 284764459字节
- test: 22980个样本, 33310796字节
- validation: 26736个样本, 39146476字节
下载大小: 228280361字节
数据集大小: 357221731字节

9. translated_dolly

特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
分割:
- train: 29616个样本, 21966259字节
下载大小: 12062356字节
数据集大小: 21966259字节

10. translated_flan_coqa

特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
分割:
- train: 12818个样本, 26455946字节
下载大小: 16080989字节
数据集大小: 26455946字节

11. translated_flan_cot

特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
分割:
- train: 183820个样本, 72401586字节
下载大小: 34564552字节
数据集大小: 72401586字节

12. translated_flan_gem_wiki

特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
分割:
- train: 54294个样本, 84073165字节
下载大小: 52363999字节
数据集大小: 84073165字节

13. translated_flan_lambada

特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
分割:
- train: 8558个样本, 2236958字节
下载大小: 1156298字节
数据集大小: 2236958字节

14. translated_flan_qa

特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
分割:
- train: 1080个样本, 355221字节
下载大小: 166753字节
数据集大小: 355221字节

15. translated_hotpotqa

特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
分割:
- train: 710952个样本, 140638090字节
下载大小: 51704787字节
数据集大小: 140638090字节

16. translated_joke_explaination

特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
分割:
- train: 1508个样本, 789677字节
下载大小: 343907字节
数据集大小: 789677字节

17. translated_mintaka

特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
分割:
- train: 28000个样本, 5661977字节
- test: 8000个样本, 1608641字节
- validation: 4000个样本, 829827字节
下载大小: 1732447字节
数据集大小: 8100445字节

18. translated_mlqa

特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
分割:
- test: 46360个样本, 36734954字节
- validation: 4592个样本, 3563390字节
下载大小: 21052230字节
数据集大小: 40298344字节

19. translated_nqopen

特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
分割:
- train: 351700个样本, 56945959字节
下载大小: 19578926字节
数据集大小: 56945959字节

20. translated_paws

特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
分割:
- train: 98802个样本, 34768722字节
- test: 16000个样本, 5625712字节
- validation: 16000个样本, 5721186字节
下载大小: 8291033字节
数据集大小: 46115620字节

21. translated_piqa

特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
分割:
- train: 32226个样本, 11873740字节
下载大小: 4759498字节
数据集大小: 11873740字节

22. translated_wikiqa

特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
分割:
- train: 2080个样本, 551856字节
- test: 586个样本, 154223字节
- validation: 280个样本, 78316字节
下载大小: 387555字节
数据集大小: 784395字节

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集