M-A-D/Mixed-Arabic-Datasets-Repo|阿拉伯语数据集|自然语言处理数据集
收藏数据集卡片:Mixed Arabic Datasets (MAD) Corpus
数据集描述
Mixed Arabic Datasets (MAD) Corpus 是一个动态的阿拉伯语文本集合,来源于各种在线平台和数据集。它旨在解决阿拉伯语数据集在互联网上的分散问题,将这些分散的资源集中到一个综合的存储库中。
该语料库涵盖了从社交媒体对话到文学杰作的广泛内容,捕捉了阿拉伯语交流的丰富性,包括标准阿拉伯语和地区方言。
配置信息
-
Ara--Ali-C137--Hindawi-Books-dataset
- 特征:
- BookLink: string
- BookName: string
- AuthorName: string
- AboutBook: string
- ChapterLink: string
- ChapterName: string
- ChapterText: string
- AboutAuthor: string
- 分割:
- train: 1364854259 bytes, 49821 examples
- 下载大小:494678002 bytes
- 数据集大小:1364854259 bytes
- 特征:
-
Ara--Goud--Goud-sum
- 特征:
- article: string
- headline: string
- categories: string
- 分割:
- train: 288296544 bytes, 139288 examples
- 下载大小:147735776 bytes
- 数据集大小:288296544 bytes
- 特征:
-
Ara--J-Mourad--MNAD.v1
- 特征:
- Title: string
- Body: string
- Category: string
- 分割:
- train: 1101921980 bytes, 418563 examples
- 下载大小:527154122 bytes
- 数据集大小:1101921980 bytes
- 特征:
-
Ara--JihadZa--IADD
- 特征:
- Sentence: string
- Region: string
- DataSource: string
- Country: string
- 分割:
- train: 19167070 bytes, 135804 examples
- 下载大小:8644491 bytes
- 数据集大小:19167070 bytes
- 特征:
-
Ara--LeMGarouani--MAC-corpus
- 特征:
- tweets: string
- type: string
- class: string
- 分割:
- train: 1945646 bytes, 18087 examples
- 下载大小:866198 bytes
- 数据集大小:1945646 bytes
- 特征:
-
Ara--MBZUAI--Bactrian-X
- 特征:
- instruction: string
- input: string
- id: string
- output: string
- 分割:
- train: 66093524 bytes, 67017 examples
- 下载大小:33063779 bytes
- 数据集大小:66093524 bytes
- 特征:
-
Ara--OpenAssistant--oasst1
- 特征:
- message_id: string
- parent_id: string
- user_id: string
- created_date: string
- text: string
- role: string
- lang: string
- review_count: int32
- review_result: bool
- deleted: bool
- rank: float64
- synthetic: bool
- model_name: null
- detoxify: null
- message_tree_id: string
- tree_state: string
- emojis: struct
- count: sequence: int32
- name: sequence: string
- labels: struct
- count: sequence: int32
- name: sequence: string
- value: sequence: float64
- index_level_0: int64
- 分割:
- train: 58168 bytes, 56 examples
- 下载大小:30984 bytes
- 数据集大小:58168 bytes
- 特征:
-
Ara--Wikipedia
- 特征:
- id: string
- url: string
- title: string
- text: string
- 分割:
- train: 3052201469 bytes, 1205403 examples
- 下载大小:1316212231 bytes
- 数据集大小:3052201469 bytes
- 特征:
-
Ara--bigscience--xP3
- 特征:
- inputs: string
- targets: string
- 分割:
- train: 4727881680 bytes, 2148955 examples
- 下载大小:2805060725 bytes
- 数据集大小:4727881680 bytes
- 特征:
-
Ara--cardiffnlp--tweet_sentiment_multilingual
- 特征:
- text: string
- label: class_label
- names:
- 0: negative
- 1: neutral
- 2: positive
- names:
- 分割:
- train: 306108 bytes, 1839 examples
- validation: 53276 bytes, 324 examples
- test: 141536 bytes, 870 examples
- 下载大小:279900 bytes
- 数据集大小:500920 bytes
- 特征:
-
Ara--miracl--miracl
- 特征:
- query_id: string
- query: string
- positive_passages: list
- docid: string
- text: string
- title: string
- negative_passages: list
- docid: string
- text: string
- title: string
- 分割:
- train: 32012083 bytes, 3495 examples
- 下载大小:15798509 bytes
- 数据集大小:32012083 bytes
- 特征:
-
Ara--mustapha--QuranExe
- 特征:
- text: string
- resource_name: string
- verses_keys: string
- 分割:
- train: 133108687 bytes, 49888 examples
- 下载大小:58769417 bytes
- 数据集大小:133108687 bytes
- 特征:
-
Ara--pain--Arabic-Tweets
- 特征:
- text: string
- 分割:
- train: 41639770853 bytes, 202700438 examples
- 下载大小:22561651700 bytes
- 数据集大小:41639770853 bytes
- 特征:
-
Ara--saudinewsnet
- 特征:
- source: string
- url: string
- date_extracted: string
- title: string
- author: string
- content: string
- 分割:
- train: 103654009 bytes, 31030 examples
- 下载大小:49117164 bytes
- 数据集大小:103654009 bytes
- 特征:
-
Ary--AbderrahmanSkiredj1--Darija-Wikipedia
- 特征:
- text: string
- 分割:
- train: 8104410 bytes, 4862 examples
- 下载大小:3229966 bytes
- 数据集大小:8104410 bytes
- 特征:
-
Ary--Ali-C137--Darija-Stories-Dataset
- 特征:
- ChapterName: string
- ChapterLink: string
- Author: string
- Text: string
- Tags: int64
- 分割:
- train: 476926644 bytes, 6142 examples
- 下载大小:241528641 bytes
- 数据集大小:476926644 bytes
- 特征:
-
Ary--Wikipedia
- 特征:
- id: string
- url: string
- title: string
- text: string
- 分割:
- train: 10007364 bytes, 6703 examples
- 下载大小:4094377 bytes
- 数据集大小:10007364 bytes
- 特征:
-
Arz--Wikipedia
- 特征:
- id: string
- url: string
- title: string
- text: string
- 分割:
- train: 1364641408 bytes, 1617770 examples
- 下载大小:306420318 bytes
- 数据集大小:1364641408 bytes
- 特征:
数据集大小
Mixed Arabic Datasets (MAD) 是一个动态和不断发展的集合,其大小随着新数据集的添加或移除而波动。随着 MAD 的不断扩展,它成为一个适应阿拉伯语数据集不断变化格局的活资源。
潜在用途
Mixed Arabic Datasets (MAD) 具有推动多种创新应用的潜力:
- 语言学分析: 利用 MAD 进行深入的语言学研究,探索方言差异、语言演变和语法结构。
- 主题建模: 通过广泛的内容集合,深入研究各种主题和主题,揭示新兴趋势和流行话题。
- 情感理解: 解码跨越阿拉伯方言的情感,揭示文化细微差别和情感动态。
- 社会文化研究: 进行社会语言学研究,揭示语言、文化和社会变迁之间的复杂联系。

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录
中国农村教育发展报告
该数据集包含了中国农村教育发展的相关数据,涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。
www.moe.gov.cn 收录
中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
RadDet
RadDet是一个包含11种雷达类别的数据集,包括6种新的低概率干扰(LPI)多相码(P1, P2, P3, P4, Px, Zadoff-Chu)和一种新的宽带调频连续波(FMCW)。数据集覆盖500 MHz频段,包含40,000个雷达帧,分为训练集、验证集和测试集。数据集在两种不同的雷达环境中提供:稀疏数据集(RadDet-1T)和密集数据集(RadDet-9T)。
github 收录