M-A-D/Mixed-Arabic-Datasets-Repo
收藏数据集卡片:Mixed Arabic Datasets (MAD) Corpus
数据集描述
Mixed Arabic Datasets (MAD) Corpus 是一个动态的阿拉伯语文本集合,来源于各种在线平台和数据集。它旨在解决阿拉伯语数据集在互联网上的分散问题,将这些分散的资源集中到一个综合的存储库中。
该语料库涵盖了从社交媒体对话到文学杰作的广泛内容,捕捉了阿拉伯语交流的丰富性,包括标准阿拉伯语和地区方言。
配置信息
-
Ara--Ali-C137--Hindawi-Books-dataset
- 特征:
- BookLink: string
- BookName: string
- AuthorName: string
- AboutBook: string
- ChapterLink: string
- ChapterName: string
- ChapterText: string
- AboutAuthor: string
- 分割:
- train: 1364854259 bytes, 49821 examples
- 下载大小:494678002 bytes
- 数据集大小:1364854259 bytes
- 特征:
-
Ara--Goud--Goud-sum
- 特征:
- article: string
- headline: string
- categories: string
- 分割:
- train: 288296544 bytes, 139288 examples
- 下载大小:147735776 bytes
- 数据集大小:288296544 bytes
- 特征:
-
Ara--J-Mourad--MNAD.v1
- 特征:
- Title: string
- Body: string
- Category: string
- 分割:
- train: 1101921980 bytes, 418563 examples
- 下载大小:527154122 bytes
- 数据集大小:1101921980 bytes
- 特征:
-
Ara--JihadZa--IADD
- 特征:
- Sentence: string
- Region: string
- DataSource: string
- Country: string
- 分割:
- train: 19167070 bytes, 135804 examples
- 下载大小:8644491 bytes
- 数据集大小:19167070 bytes
- 特征:
-
Ara--LeMGarouani--MAC-corpus
- 特征:
- tweets: string
- type: string
- class: string
- 分割:
- train: 1945646 bytes, 18087 examples
- 下载大小:866198 bytes
- 数据集大小:1945646 bytes
- 特征:
-
Ara--MBZUAI--Bactrian-X
- 特征:
- instruction: string
- input: string
- id: string
- output: string
- 分割:
- train: 66093524 bytes, 67017 examples
- 下载大小:33063779 bytes
- 数据集大小:66093524 bytes
- 特征:
-
Ara--OpenAssistant--oasst1
- 特征:
- message_id: string
- parent_id: string
- user_id: string
- created_date: string
- text: string
- role: string
- lang: string
- review_count: int32
- review_result: bool
- deleted: bool
- rank: float64
- synthetic: bool
- model_name: null
- detoxify: null
- message_tree_id: string
- tree_state: string
- emojis: struct
- count: sequence: int32
- name: sequence: string
- labels: struct
- count: sequence: int32
- name: sequence: string
- value: sequence: float64
- index_level_0: int64
- 分割:
- train: 58168 bytes, 56 examples
- 下载大小:30984 bytes
- 数据集大小:58168 bytes
- 特征:
-
Ara--Wikipedia
- 特征:
- id: string
- url: string
- title: string
- text: string
- 分割:
- train: 3052201469 bytes, 1205403 examples
- 下载大小:1316212231 bytes
- 数据集大小:3052201469 bytes
- 特征:
-
Ara--bigscience--xP3
- 特征:
- inputs: string
- targets: string
- 分割:
- train: 4727881680 bytes, 2148955 examples
- 下载大小:2805060725 bytes
- 数据集大小:4727881680 bytes
- 特征:
-
Ara--cardiffnlp--tweet_sentiment_multilingual
- 特征:
- text: string
- label: class_label
- names:
- 0: negative
- 1: neutral
- 2: positive
- names:
- 分割:
- train: 306108 bytes, 1839 examples
- validation: 53276 bytes, 324 examples
- test: 141536 bytes, 870 examples
- 下载大小:279900 bytes
- 数据集大小:500920 bytes
- 特征:
-
Ara--miracl--miracl
- 特征:
- query_id: string
- query: string
- positive_passages: list
- docid: string
- text: string
- title: string
- negative_passages: list
- docid: string
- text: string
- title: string
- 分割:
- train: 32012083 bytes, 3495 examples
- 下载大小:15798509 bytes
- 数据集大小:32012083 bytes
- 特征:
-
Ara--mustapha--QuranExe
- 特征:
- text: string
- resource_name: string
- verses_keys: string
- 分割:
- train: 133108687 bytes, 49888 examples
- 下载大小:58769417 bytes
- 数据集大小:133108687 bytes
- 特征:
-
Ara--pain--Arabic-Tweets
- 特征:
- text: string
- 分割:
- train: 41639770853 bytes, 202700438 examples
- 下载大小:22561651700 bytes
- 数据集大小:41639770853 bytes
- 特征:
-
Ara--saudinewsnet
- 特征:
- source: string
- url: string
- date_extracted: string
- title: string
- author: string
- content: string
- 分割:
- train: 103654009 bytes, 31030 examples
- 下载大小:49117164 bytes
- 数据集大小:103654009 bytes
- 特征:
-
Ary--AbderrahmanSkiredj1--Darija-Wikipedia
- 特征:
- text: string
- 分割:
- train: 8104410 bytes, 4862 examples
- 下载大小:3229966 bytes
- 数据集大小:8104410 bytes
- 特征:
-
Ary--Ali-C137--Darija-Stories-Dataset
- 特征:
- ChapterName: string
- ChapterLink: string
- Author: string
- Text: string
- Tags: int64
- 分割:
- train: 476926644 bytes, 6142 examples
- 下载大小:241528641 bytes
- 数据集大小:476926644 bytes
- 特征:
-
Ary--Wikipedia
- 特征:
- id: string
- url: string
- title: string
- text: string
- 分割:
- train: 10007364 bytes, 6703 examples
- 下载大小:4094377 bytes
- 数据集大小:10007364 bytes
- 特征:
-
Arz--Wikipedia
- 特征:
- id: string
- url: string
- title: string
- text: string
- 分割:
- train: 1364641408 bytes, 1617770 examples
- 下载大小:306420318 bytes
- 数据集大小:1364641408 bytes
- 特征:
数据集大小
Mixed Arabic Datasets (MAD) 是一个动态和不断发展的集合,其大小随着新数据集的添加或移除而波动。随着 MAD 的不断扩展,它成为一个适应阿拉伯语数据集不断变化格局的活资源。
潜在用途
Mixed Arabic Datasets (MAD) 具有推动多种创新应用的潜力:
- 语言学分析: 利用 MAD 进行深入的语言学研究,探索方言差异、语言演变和语法结构。
- 主题建模: 通过广泛的内容集合,深入研究各种主题和主题,揭示新兴趋势和流行话题。
- 情感理解: 解码跨越阿拉伯方言的情感,揭示文化细微差别和情感动态。
- 社会文化研究: 进行社会语言学研究,揭示语言、文化和社会变迁之间的复杂联系。




