Heng666/Traditional_Chinese-aya_collection
收藏Hugging Face2024-02-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Heng666/Traditional_Chinese-aya_collection
下载链接
链接失效反馈官方服务:
资源简介:
`繁體中文 Aya` 是一個精心策劃的資料集,源自 [CohereForAI](https://huggingface.co/CohereForAI) 的綜合 Aya 集合,特別關注繁體中文文本資料。此資料集結合了來自 [CohereForAI/aya_collection](https://huggingface.co/datasets/CohereForAI/aya_collection),過濾掉除繁體中文、簡體中文內容之外的所有內容。目標是為研究人員、技術專家和語言學家提供即用型繁體中文文本資源,顯著減少專注於繁體中文的 NLP 和 AI 專案中數據預處理所需的時間和精力。
`繁體中文 Aya` 是一個精心策劃的資料集,源自 [CohereForAI](https://huggingface.co/CohereForAI) 的綜合 Aya 集合,特別關注繁體中文文本資料。此資料集結合了來自 [CohereForAI/aya_collection](https://huggingface.co/datasets/CohereForAI/aya_collection),過濾掉除繁體中文、簡體中文內容之外的所有內容。目標是為研究人員、技術專家和語言學家提供即用型繁體中文文本資源,顯著減少專注於繁體中文的 NLP 和 AI 專案中數據預處理所需的時間和精力。
提供机构:
Heng666
原始信息汇总
数据集概述
数据集列表
1. aya_dataset
- 特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
- 分割:
- train: 4909个样本, 1703870字节
- 下载大小: 998499字节
- 数据集大小: 1703870字节
2. templated_ntx_llm
- 特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
- 分割:
- train: 256个样本, 402016字节
- 下载大小: 49658字节
- 数据集大小: 402016字节
3. templated_uner_llm
- 特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
- 分割:
- train: 7992个样本, 8259554字节
- test: 1997个样本, 2349655字节
- validation: 998个样本, 1073059字节
- 下载大小: 2001352字节
- 数据集大小: 11682268字节
4. templated_xcsqa
- 特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
- 分割:
- validation: 1000个样本, 297261字节
- 下载大小: 104307字节
- 数据集大小: 297261字节
5. templated_xlel_wd
- 特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
- 分割:
- train: 50949个样本, 40044968字节
- test: 6637个样本, 5192254字节
- validation: 6399个样本, 4999716字节
- 下载大小: 31048776字节
- 数据集大小: 50236938字节
6. templated_xwikis
- 特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
- 分割:
- train: 31276个样本, 147846215字节
- test: 6998个样本, 34828372字节
- validation: 14998个样本, 65882386字节
- 下载大小: 168472726字节
- 数据集大小: 248556973字节
7. translated_adversarial_qa
- 特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
- 分割:
- train: 20000个样本, 13844756字节
- test: 2000个样本, 1505596字节
- validation: 2000个样本, 1392335字节
- 下载大小: 6348021字节
- 数据集大小: 16742687字节
8. translated_cnn_dailymail
- 特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
- 分割:
- train: 200000个样本, 284764459字节
- test: 22980个样本, 33310796字节
- validation: 26736个样本, 39146476字节
- 下载大小: 228280361字节
- 数据集大小: 357221731字节
9. translated_dolly
- 特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
- 分割:
- train: 29616个样本, 21966259字节
- 下载大小: 12062356字节
- 数据集大小: 21966259字节
10. translated_flan_coqa
- 特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
- 分割:
- train: 12818个样本, 26455946字节
- 下载大小: 16080989字节
- 数据集大小: 26455946字节
11. translated_flan_cot
- 特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
- 分割:
- train: 183820个样本, 72401586字节
- 下载大小: 34564552字节
- 数据集大小: 72401586字节
12. translated_flan_gem_wiki
- 特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
- 分割:
- train: 54294个样本, 84073165字节
- 下载大小: 52363999字节
- 数据集大小: 84073165字节
13. translated_flan_lambada
- 特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
- 分割:
- train: 8558个样本, 2236958字节
- 下载大小: 1156298字节
- 数据集大小: 2236958字节
14. translated_flan_qa
- 特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
- 分割:
- train: 1080个样本, 355221字节
- 下载大小: 166753字节
- 数据集大小: 355221字节
15. translated_hotpotqa
- 特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
- 分割:
- train: 710952个样本, 140638090字节
- 下载大小: 51704787字节
- 数据集大小: 140638090字节
16. translated_joke_explaination
- 特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
- 分割:
- train: 1508个样本, 789677字节
- 下载大小: 343907字节
- 数据集大小: 789677字节
17. translated_mintaka
- 特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
- 分割:
- train: 28000个样本, 5661977字节
- test: 8000个样本, 1608641字节
- validation: 4000个样本, 829827字节
- 下载大小: 1732447字节
- 数据集大小: 8100445字节
18. translated_mlqa
- 特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
- 分割:
- test: 46360个样本, 36734954字节
- validation: 4592个样本, 3563390字节
- 下载大小: 21052230字节
- 数据集大小: 40298344字节
19. translated_nqopen
- 特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
- 分割:
- train: 351700个样本, 56945959字节
- 下载大小: 19578926字节
- 数据集大小: 56945959字节
20. translated_paws
- 特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
- 分割:
- train: 98802个样本, 34768722字节
- test: 16000个样本, 5625712字节
- validation: 16000个样本, 5721186字节
- 下载大小: 8291033字节
- 数据集大小: 46115620字节
21. translated_piqa
- 特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
- 分割:
- train: 32226个样本, 11873740字节
- 下载大小: 4759498字节
- 数据集大小: 11873740字节
22. translated_wikiqa
- 特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: string
- language_code: string
- split: string
- script: string
- 分割:
- train: 2080个样本, 551856字节
- test: 586个样本, 154223字节
- validation: 280个样本, 78316字节
- 下载大小: 387555字节
- 数据集大小: 784395字节
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



