M-A-D/Mixed-Arabic-Datasets-Repo|阿拉伯语数据集|自然语言处理数据集
收藏数据集卡片:Mixed Arabic Datasets (MAD) Corpus
数据集描述
Mixed Arabic Datasets (MAD) Corpus 是一个动态的阿拉伯语文本集合,来源于各种在线平台和数据集。它旨在解决阿拉伯语数据集在互联网上的分散问题,将这些分散的资源集中到一个综合的存储库中。
该语料库涵盖了从社交媒体对话到文学杰作的广泛内容,捕捉了阿拉伯语交流的丰富性,包括标准阿拉伯语和地区方言。
配置信息
-
Ara--Ali-C137--Hindawi-Books-dataset
- 特征:
- BookLink: string
- BookName: string
- AuthorName: string
- AboutBook: string
- ChapterLink: string
- ChapterName: string
- ChapterText: string
- AboutAuthor: string
- 分割:
- train: 1364854259 bytes, 49821 examples
- 下载大小:494678002 bytes
- 数据集大小:1364854259 bytes
- 特征:
-
Ara--Goud--Goud-sum
- 特征:
- article: string
- headline: string
- categories: string
- 分割:
- train: 288296544 bytes, 139288 examples
- 下载大小:147735776 bytes
- 数据集大小:288296544 bytes
- 特征:
-
Ara--J-Mourad--MNAD.v1
- 特征:
- Title: string
- Body: string
- Category: string
- 分割:
- train: 1101921980 bytes, 418563 examples
- 下载大小:527154122 bytes
- 数据集大小:1101921980 bytes
- 特征:
-
Ara--JihadZa--IADD
- 特征:
- Sentence: string
- Region: string
- DataSource: string
- Country: string
- 分割:
- train: 19167070 bytes, 135804 examples
- 下载大小:8644491 bytes
- 数据集大小:19167070 bytes
- 特征:
-
Ara--LeMGarouani--MAC-corpus
- 特征:
- tweets: string
- type: string
- class: string
- 分割:
- train: 1945646 bytes, 18087 examples
- 下载大小:866198 bytes
- 数据集大小:1945646 bytes
- 特征:
-
Ara--MBZUAI--Bactrian-X
- 特征:
- instruction: string
- input: string
- id: string
- output: string
- 分割:
- train: 66093524 bytes, 67017 examples
- 下载大小:33063779 bytes
- 数据集大小:66093524 bytes
- 特征:
-
Ara--OpenAssistant--oasst1
- 特征:
- message_id: string
- parent_id: string
- user_id: string
- created_date: string
- text: string
- role: string
- lang: string
- review_count: int32
- review_result: bool
- deleted: bool
- rank: float64
- synthetic: bool
- model_name: null
- detoxify: null
- message_tree_id: string
- tree_state: string
- emojis: struct
- count: sequence: int32
- name: sequence: string
- labels: struct
- count: sequence: int32
- name: sequence: string
- value: sequence: float64
- index_level_0: int64
- 分割:
- train: 58168 bytes, 56 examples
- 下载大小:30984 bytes
- 数据集大小:58168 bytes
- 特征:
-
Ara--Wikipedia
- 特征:
- id: string
- url: string
- title: string
- text: string
- 分割:
- train: 3052201469 bytes, 1205403 examples
- 下载大小:1316212231 bytes
- 数据集大小:3052201469 bytes
- 特征:
-
Ara--bigscience--xP3
- 特征:
- inputs: string
- targets: string
- 分割:
- train: 4727881680 bytes, 2148955 examples
- 下载大小:2805060725 bytes
- 数据集大小:4727881680 bytes
- 特征:
-
Ara--cardiffnlp--tweet_sentiment_multilingual
- 特征:
- text: string
- label: class_label
- names:
- 0: negative
- 1: neutral
- 2: positive
- names:
- 分割:
- train: 306108 bytes, 1839 examples
- validation: 53276 bytes, 324 examples
- test: 141536 bytes, 870 examples
- 下载大小:279900 bytes
- 数据集大小:500920 bytes
- 特征:
-
Ara--miracl--miracl
- 特征:
- query_id: string
- query: string
- positive_passages: list
- docid: string
- text: string
- title: string
- negative_passages: list
- docid: string
- text: string
- title: string
- 分割:
- train: 32012083 bytes, 3495 examples
- 下载大小:15798509 bytes
- 数据集大小:32012083 bytes
- 特征:
-
Ara--mustapha--QuranExe
- 特征:
- text: string
- resource_name: string
- verses_keys: string
- 分割:
- train: 133108687 bytes, 49888 examples
- 下载大小:58769417 bytes
- 数据集大小:133108687 bytes
- 特征:
-
Ara--pain--Arabic-Tweets
- 特征:
- text: string
- 分割:
- train: 41639770853 bytes, 202700438 examples
- 下载大小:22561651700 bytes
- 数据集大小:41639770853 bytes
- 特征:
-
Ara--saudinewsnet
- 特征:
- source: string
- url: string
- date_extracted: string
- title: string
- author: string
- content: string
- 分割:
- train: 103654009 bytes, 31030 examples
- 下载大小:49117164 bytes
- 数据集大小:103654009 bytes
- 特征:
-
Ary--AbderrahmanSkiredj1--Darija-Wikipedia
- 特征:
- text: string
- 分割:
- train: 8104410 bytes, 4862 examples
- 下载大小:3229966 bytes
- 数据集大小:8104410 bytes
- 特征:
-
Ary--Ali-C137--Darija-Stories-Dataset
- 特征:
- ChapterName: string
- ChapterLink: string
- Author: string
- Text: string
- Tags: int64
- 分割:
- train: 476926644 bytes, 6142 examples
- 下载大小:241528641 bytes
- 数据集大小:476926644 bytes
- 特征:
-
Ary--Wikipedia
- 特征:
- id: string
- url: string
- title: string
- text: string
- 分割:
- train: 10007364 bytes, 6703 examples
- 下载大小:4094377 bytes
- 数据集大小:10007364 bytes
- 特征:
-
Arz--Wikipedia
- 特征:
- id: string
- url: string
- title: string
- text: string
- 分割:
- train: 1364641408 bytes, 1617770 examples
- 下载大小:306420318 bytes
- 数据集大小:1364641408 bytes
- 特征:
数据集大小
Mixed Arabic Datasets (MAD) 是一个动态和不断发展的集合,其大小随着新数据集的添加或移除而波动。随着 MAD 的不断扩展,它成为一个适应阿拉伯语数据集不断变化格局的活资源。
潜在用途
Mixed Arabic Datasets (MAD) 具有推动多种创新应用的潜力:
- 语言学分析: 利用 MAD 进行深入的语言学研究,探索方言差异、语言演变和语法结构。
- 主题建模: 通过广泛的内容集合,深入研究各种主题和主题,揭示新兴趋势和流行话题。
- 情感理解: 解码跨越阿拉伯方言的情感,揭示文化细微差别和情感动态。
- 社会文化研究: 进行社会语言学研究,揭示语言、文化和社会变迁之间的复杂联系。
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
CMNEE(Chinese Military News Event Extraction dataset)
CMNEE(Chinese Military News Event Extraction dataset)是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件,所有事件均基于预定义的军事领域模式人工标注,包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略,首先通过权威网站获取军事新闻文本并预处理,然后依据触发词字典进行预标注,经领域专家审核后形成事件模式。随后,通过人工分批、迭代标注并持续修正,直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集,对推动相关研究具有显著意义。
github 收录
LibriSpeech
LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。
OpenDataLab 收录
TaRF
TaRF 是由密歇根大学、耶鲁大学和加州大学伯克利分校联合创建的视触融合场景数据集,旨在将视觉与触觉信号对齐至共享的三维空间。该数据集包含 19.3k 对齐的视觉与触觉样本,覆盖 13 个普通场景,如办公室、走廊和户外环境。数据采集通过结合神经辐射场(NeRF)和触觉传感器完成,利用多视图几何方法校准视觉与触觉信号,实现空间对齐。TaRF 的创建过程包括场景的多视角视觉重建和同步采集触觉信号,最终通过扩散模型生成未直接采样的触觉信号。该数据集可用于触觉信号估计、触觉定位和材料属性理解等任务,为机器人交互和虚拟世界构建提供重要支持。
github 收录