five

M-A-D/Mixed-Arabic-Datasets-Repo|阿拉伯语数据集|自然语言处理数据集

收藏
hugging_face2023-10-16 更新2024-03-04 收录
阿拉伯语
自然语言处理
下载链接:
https://hf-mirror.com/datasets/M-A-D/Mixed-Arabic-Datasets-Repo
下载链接
链接失效反馈
资源简介:
混合阿拉伯语数据集(MAD)语料库是一个动态编译的多样阿拉伯语文本集合,源自各种在线平台和数据集。它旨在解决研究人员、语言学家和语言爱好者面临的一个关键挑战:互联网上阿拉伯语数据集的碎片化。MAD试图将这些分散的资源集中到一个全面的综合存储库中。该语料库涵盖了从社交媒体对话到文学杰作的广泛内容,捕捉了阿拉伯语交流的丰富纹理,包括标准阿拉伯语和地区方言。
提供机构:
M-A-D
原始信息汇总

数据集卡片:Mixed Arabic Datasets (MAD) Corpus

数据集描述

Mixed Arabic Datasets (MAD) Corpus 是一个动态的阿拉伯语文本集合,来源于各种在线平台和数据集。它旨在解决阿拉伯语数据集在互联网上的分散问题,将这些分散的资源集中到一个综合的存储库中。

该语料库涵盖了从社交媒体对话到文学杰作的广泛内容,捕捉了阿拉伯语交流的丰富性,包括标准阿拉伯语和地区方言。

配置信息

  • Ara--Ali-C137--Hindawi-Books-dataset

    • 特征:
      • BookLink: string
      • BookName: string
      • AuthorName: string
      • AboutBook: string
      • ChapterLink: string
      • ChapterName: string
      • ChapterText: string
      • AboutAuthor: string
    • 分割:
      • train: 1364854259 bytes, 49821 examples
    • 下载大小:494678002 bytes
    • 数据集大小:1364854259 bytes
  • Ara--Goud--Goud-sum

    • 特征:
      • article: string
      • headline: string
      • categories: string
    • 分割:
      • train: 288296544 bytes, 139288 examples
    • 下载大小:147735776 bytes
    • 数据集大小:288296544 bytes
  • Ara--J-Mourad--MNAD.v1

    • 特征:
      • Title: string
      • Body: string
      • Category: string
    • 分割:
      • train: 1101921980 bytes, 418563 examples
    • 下载大小:527154122 bytes
    • 数据集大小:1101921980 bytes
  • Ara--JihadZa--IADD

    • 特征:
      • Sentence: string
      • Region: string
      • DataSource: string
      • Country: string
    • 分割:
      • train: 19167070 bytes, 135804 examples
    • 下载大小:8644491 bytes
    • 数据集大小:19167070 bytes
  • Ara--LeMGarouani--MAC-corpus

    • 特征:
      • tweets: string
      • type: string
      • class: string
    • 分割:
      • train: 1945646 bytes, 18087 examples
    • 下载大小:866198 bytes
    • 数据集大小:1945646 bytes
  • Ara--MBZUAI--Bactrian-X

    • 特征:
      • instruction: string
      • input: string
      • id: string
      • output: string
    • 分割:
      • train: 66093524 bytes, 67017 examples
    • 下载大小:33063779 bytes
    • 数据集大小:66093524 bytes
  • Ara--OpenAssistant--oasst1

    • 特征:
      • message_id: string
      • parent_id: string
      • user_id: string
      • created_date: string
      • text: string
      • role: string
      • lang: string
      • review_count: int32
      • review_result: bool
      • deleted: bool
      • rank: float64
      • synthetic: bool
      • model_name: null
      • detoxify: null
      • message_tree_id: string
      • tree_state: string
      • emojis: struct
        • count: sequence: int32
        • name: sequence: string
      • labels: struct
        • count: sequence: int32
        • name: sequence: string
        • value: sequence: float64
      • index_level_0: int64
    • 分割:
      • train: 58168 bytes, 56 examples
    • 下载大小:30984 bytes
    • 数据集大小:58168 bytes
  • Ara--Wikipedia

    • 特征:
      • id: string
      • url: string
      • title: string
      • text: string
    • 分割:
      • train: 3052201469 bytes, 1205403 examples
    • 下载大小:1316212231 bytes
    • 数据集大小:3052201469 bytes
  • Ara--bigscience--xP3

    • 特征:
      • inputs: string
      • targets: string
    • 分割:
      • train: 4727881680 bytes, 2148955 examples
    • 下载大小:2805060725 bytes
    • 数据集大小:4727881680 bytes
  • Ara--cardiffnlp--tweet_sentiment_multilingual

    • 特征:
      • text: string
      • label: class_label
        • names:
          • 0: negative
          • 1: neutral
          • 2: positive
    • 分割:
      • train: 306108 bytes, 1839 examples
      • validation: 53276 bytes, 324 examples
      • test: 141536 bytes, 870 examples
    • 下载大小:279900 bytes
    • 数据集大小:500920 bytes
  • Ara--miracl--miracl

    • 特征:
      • query_id: string
      • query: string
      • positive_passages: list
        • docid: string
        • text: string
        • title: string
      • negative_passages: list
        • docid: string
        • text: string
        • title: string
    • 分割:
      • train: 32012083 bytes, 3495 examples
    • 下载大小:15798509 bytes
    • 数据集大小:32012083 bytes
  • Ara--mustapha--QuranExe

    • 特征:
      • text: string
      • resource_name: string
      • verses_keys: string
    • 分割:
      • train: 133108687 bytes, 49888 examples
    • 下载大小:58769417 bytes
    • 数据集大小:133108687 bytes
  • Ara--pain--Arabic-Tweets

    • 特征:
      • text: string
    • 分割:
      • train: 41639770853 bytes, 202700438 examples
    • 下载大小:22561651700 bytes
    • 数据集大小:41639770853 bytes
  • Ara--saudinewsnet

    • 特征:
      • source: string
      • url: string
      • date_extracted: string
      • title: string
      • author: string
      • content: string
    • 分割:
      • train: 103654009 bytes, 31030 examples
    • 下载大小:49117164 bytes
    • 数据集大小:103654009 bytes
  • Ary--AbderrahmanSkiredj1--Darija-Wikipedia

    • 特征:
      • text: string
    • 分割:
      • train: 8104410 bytes, 4862 examples
    • 下载大小:3229966 bytes
    • 数据集大小:8104410 bytes
  • Ary--Ali-C137--Darija-Stories-Dataset

    • 特征:
      • ChapterName: string
      • ChapterLink: string
      • Author: string
      • Text: string
      • Tags: int64
    • 分割:
      • train: 476926644 bytes, 6142 examples
    • 下载大小:241528641 bytes
    • 数据集大小:476926644 bytes
  • Ary--Wikipedia

    • 特征:
      • id: string
      • url: string
      • title: string
      • text: string
    • 分割:
      • train: 10007364 bytes, 6703 examples
    • 下载大小:4094377 bytes
    • 数据集大小:10007364 bytes
  • Arz--Wikipedia

    • 特征:
      • id: string
      • url: string
      • title: string
      • text: string
    • 分割:
      • train: 1364641408 bytes, 1617770 examples
    • 下载大小:306420318 bytes
    • 数据集大小:1364641408 bytes

数据集大小

Mixed Arabic Datasets (MAD) 是一个动态和不断发展的集合,其大小随着新数据集的添加或移除而波动。随着 MAD 的不断扩展,它成为一个适应阿拉伯语数据集不断变化格局的活资源。

潜在用途

Mixed Arabic Datasets (MAD) 具有推动多种创新应用的潜力:

  • 语言学分析: 利用 MAD 进行深入的语言学研究,探索方言差异、语言演变和语法结构。
  • 主题建模: 通过广泛的内容集合,深入研究各种主题和主题,揭示新兴趋势和流行话题。
  • 情感理解: 解码跨越阿拉伯方言的情感,揭示文化细微差别和情感动态。
  • 社会文化研究: 进行社会语言学研究,揭示语言、文化和社会变迁之间的复杂联系。
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

CMNEE(Chinese Military News Event Extraction dataset)

CMNEE(Chinese Military News Event Extraction dataset)是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件,所有事件均基于预定义的军事领域模式人工标注,包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略,首先通过权威网站获取军事新闻文本并预处理,然后依据触发词字典进行预标注,经领域专家审核后形成事件模式。随后,通过人工分批、迭代标注并持续修正,直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集,对推动相关研究具有显著意义。

github 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。

OpenDataLab 收录

TaRF

TaRF 是由密歇根大学、耶鲁大学和加州大学伯克利分校联合创建的视触融合场景数据集,旨在将视觉与触觉信号对齐至共享的三维空间。该数据集包含 19.3k 对齐的视觉与触觉样本,覆盖 13 个普通场景,如办公室、走廊和户外环境。数据采集通过结合神经辐射场(NeRF)和触觉传感器完成,利用多视图几何方法校准视觉与触觉信号,实现空间对齐。TaRF 的创建过程包括场景的多视角视觉重建和同步采集触觉信号,最终通过扩散模型生成未直接采样的触觉信号。该数据集可用于触觉信号估计、触觉定位和材料属性理解等任务,为机器人交互和虚拟世界构建提供重要支持。

github 收录