five

M-A-D/Mixed-Arabic-Datasets-Repo|阿拉伯语数据集|自然语言处理数据集

收藏
hugging_face2023-10-16 更新2024-03-04 收录
阿拉伯语
自然语言处理
下载链接:
https://hf-mirror.com/datasets/M-A-D/Mixed-Arabic-Datasets-Repo
下载链接
链接失效反馈
资源简介:
混合阿拉伯语数据集(MAD)语料库是一个动态编译的多样阿拉伯语文本集合,源自各种在线平台和数据集。它旨在解决研究人员、语言学家和语言爱好者面临的一个关键挑战:互联网上阿拉伯语数据集的碎片化。MAD试图将这些分散的资源集中到一个全面的综合存储库中。该语料库涵盖了从社交媒体对话到文学杰作的广泛内容,捕捉了阿拉伯语交流的丰富纹理,包括标准阿拉伯语和地区方言。
提供机构:
M-A-D
原始信息汇总

数据集卡片:Mixed Arabic Datasets (MAD) Corpus

数据集描述

Mixed Arabic Datasets (MAD) Corpus 是一个动态的阿拉伯语文本集合,来源于各种在线平台和数据集。它旨在解决阿拉伯语数据集在互联网上的分散问题,将这些分散的资源集中到一个综合的存储库中。

该语料库涵盖了从社交媒体对话到文学杰作的广泛内容,捕捉了阿拉伯语交流的丰富性,包括标准阿拉伯语和地区方言。

配置信息

  • Ara--Ali-C137--Hindawi-Books-dataset

    • 特征:
      • BookLink: string
      • BookName: string
      • AuthorName: string
      • AboutBook: string
      • ChapterLink: string
      • ChapterName: string
      • ChapterText: string
      • AboutAuthor: string
    • 分割:
      • train: 1364854259 bytes, 49821 examples
    • 下载大小:494678002 bytes
    • 数据集大小:1364854259 bytes
  • Ara--Goud--Goud-sum

    • 特征:
      • article: string
      • headline: string
      • categories: string
    • 分割:
      • train: 288296544 bytes, 139288 examples
    • 下载大小:147735776 bytes
    • 数据集大小:288296544 bytes
  • Ara--J-Mourad--MNAD.v1

    • 特征:
      • Title: string
      • Body: string
      • Category: string
    • 分割:
      • train: 1101921980 bytes, 418563 examples
    • 下载大小:527154122 bytes
    • 数据集大小:1101921980 bytes
  • Ara--JihadZa--IADD

    • 特征:
      • Sentence: string
      • Region: string
      • DataSource: string
      • Country: string
    • 分割:
      • train: 19167070 bytes, 135804 examples
    • 下载大小:8644491 bytes
    • 数据集大小:19167070 bytes
  • Ara--LeMGarouani--MAC-corpus

    • 特征:
      • tweets: string
      • type: string
      • class: string
    • 分割:
      • train: 1945646 bytes, 18087 examples
    • 下载大小:866198 bytes
    • 数据集大小:1945646 bytes
  • Ara--MBZUAI--Bactrian-X

    • 特征:
      • instruction: string
      • input: string
      • id: string
      • output: string
    • 分割:
      • train: 66093524 bytes, 67017 examples
    • 下载大小:33063779 bytes
    • 数据集大小:66093524 bytes
  • Ara--OpenAssistant--oasst1

    • 特征:
      • message_id: string
      • parent_id: string
      • user_id: string
      • created_date: string
      • text: string
      • role: string
      • lang: string
      • review_count: int32
      • review_result: bool
      • deleted: bool
      • rank: float64
      • synthetic: bool
      • model_name: null
      • detoxify: null
      • message_tree_id: string
      • tree_state: string
      • emojis: struct
        • count: sequence: int32
        • name: sequence: string
      • labels: struct
        • count: sequence: int32
        • name: sequence: string
        • value: sequence: float64
      • index_level_0: int64
    • 分割:
      • train: 58168 bytes, 56 examples
    • 下载大小:30984 bytes
    • 数据集大小:58168 bytes
  • Ara--Wikipedia

    • 特征:
      • id: string
      • url: string
      • title: string
      • text: string
    • 分割:
      • train: 3052201469 bytes, 1205403 examples
    • 下载大小:1316212231 bytes
    • 数据集大小:3052201469 bytes
  • Ara--bigscience--xP3

    • 特征:
      • inputs: string
      • targets: string
    • 分割:
      • train: 4727881680 bytes, 2148955 examples
    • 下载大小:2805060725 bytes
    • 数据集大小:4727881680 bytes
  • Ara--cardiffnlp--tweet_sentiment_multilingual

    • 特征:
      • text: string
      • label: class_label
        • names:
          • 0: negative
          • 1: neutral
          • 2: positive
    • 分割:
      • train: 306108 bytes, 1839 examples
      • validation: 53276 bytes, 324 examples
      • test: 141536 bytes, 870 examples
    • 下载大小:279900 bytes
    • 数据集大小:500920 bytes
  • Ara--miracl--miracl

    • 特征:
      • query_id: string
      • query: string
      • positive_passages: list
        • docid: string
        • text: string
        • title: string
      • negative_passages: list
        • docid: string
        • text: string
        • title: string
    • 分割:
      • train: 32012083 bytes, 3495 examples
    • 下载大小:15798509 bytes
    • 数据集大小:32012083 bytes
  • Ara--mustapha--QuranExe

    • 特征:
      • text: string
      • resource_name: string
      • verses_keys: string
    • 分割:
      • train: 133108687 bytes, 49888 examples
    • 下载大小:58769417 bytes
    • 数据集大小:133108687 bytes
  • Ara--pain--Arabic-Tweets

    • 特征:
      • text: string
    • 分割:
      • train: 41639770853 bytes, 202700438 examples
    • 下载大小:22561651700 bytes
    • 数据集大小:41639770853 bytes
  • Ara--saudinewsnet

    • 特征:
      • source: string
      • url: string
      • date_extracted: string
      • title: string
      • author: string
      • content: string
    • 分割:
      • train: 103654009 bytes, 31030 examples
    • 下载大小:49117164 bytes
    • 数据集大小:103654009 bytes
  • Ary--AbderrahmanSkiredj1--Darija-Wikipedia

    • 特征:
      • text: string
    • 分割:
      • train: 8104410 bytes, 4862 examples
    • 下载大小:3229966 bytes
    • 数据集大小:8104410 bytes
  • Ary--Ali-C137--Darija-Stories-Dataset

    • 特征:
      • ChapterName: string
      • ChapterLink: string
      • Author: string
      • Text: string
      • Tags: int64
    • 分割:
      • train: 476926644 bytes, 6142 examples
    • 下载大小:241528641 bytes
    • 数据集大小:476926644 bytes
  • Ary--Wikipedia

    • 特征:
      • id: string
      • url: string
      • title: string
      • text: string
    • 分割:
      • train: 10007364 bytes, 6703 examples
    • 下载大小:4094377 bytes
    • 数据集大小:10007364 bytes
  • Arz--Wikipedia

    • 特征:
      • id: string
      • url: string
      • title: string
      • text: string
    • 分割:
      • train: 1364641408 bytes, 1617770 examples
    • 下载大小:306420318 bytes
    • 数据集大小:1364641408 bytes

数据集大小

Mixed Arabic Datasets (MAD) 是一个动态和不断发展的集合,其大小随着新数据集的添加或移除而波动。随着 MAD 的不断扩展,它成为一个适应阿拉伯语数据集不断变化格局的活资源。

潜在用途

Mixed Arabic Datasets (MAD) 具有推动多种创新应用的潜力:

  • 语言学分析: 利用 MAD 进行深入的语言学研究,探索方言差异、语言演变和语法结构。
  • 主题建模: 通过广泛的内容集合,深入研究各种主题和主题,揭示新兴趋势和流行话题。
  • 情感理解: 解码跨越阿拉伯方言的情感,揭示文化细微差别和情感动态。
  • 社会文化研究: 进行社会语言学研究,揭示语言、文化和社会变迁之间的复杂联系。
AI搜集汇总
数据集介绍
main_image_url
构建方式
M-A-D/Mixed-Arabic-Datasets-Repo数据集的构建方法是将多个来源的阿拉伯语文本数据集整合到一个统一的平台上。它涵盖了从社交媒体对话到文学作品的各种内容,并包括标准阿拉伯语和地区方言。该数据集的构建旨在解决研究人员面临的挑战,即阿拉伯语数据集在互联网上的分散性。M-A-D通过将分散的资源集中到一个单一的、全面的存储库中,为研究人员、语言学家和语言爱好者提供了便利。
特点
M-A-D数据集的特点是其多样性和全面性。它包含了广泛的阿拉伯语文本数据,包括书籍、文章、社交媒体帖子、对话记录等。这些数据来自于不同的来源和平台,涵盖了不同的主题、风格和语言变体。M-A-D数据集还提供了多种任务类别,包括文本分类、问答、翻译、摘要、对话、文本生成等。这使得该数据集适用于各种自然语言处理任务,并能够为研究者提供丰富的资源和数据支持。
使用方法
使用M-A-D数据集的方法非常灵活。用户可以根据自己的需求选择其中一个或多个子数据集,并通过提供的配置名称来加载。例如,可以使用`load_dataset('M-A-D/Mixed-Arabic-Datasets-Repo', 'Ara--MBZUAI--Bactrian-X')`来加载名为'Ara--MBZUAI--Bactrian-X'的数据集。如果需要合并多个数据集,可以使用`concatenate_datasets()`函数将它们合并为一个新的数据集。在使用数据集之前,用户应该对数据集进行处理,以确保数据的一致性和质量。
背景与挑战
背景概述
在阿拉伯语自然语言处理领域,数据集的碎片化和分散性一直是研究者面临的重大挑战。为了应对这一挑战,M-A-D/Mixed-Arabic-Datasets-Repo应运而生,这是一个由社区驱动的多样化阿拉伯语文本集合。该数据集旨在将分散于互联网的阿拉伯语数据集中起来,创建一个单一、全面的资源库。M-A-D涵盖了广泛的内容,包括社交媒体对话、文学作品等,不仅包含标准阿拉伯语,还包含了各种地区方言,从而为语言学家和语言爱好者提供了深入了解阿拉伯语多样性和文化细微差别的机会。
当前挑战
M-A-D数据集在创建和应用过程中面临多项挑战。首先,由于阿拉伯语数据集的碎片化和分散性,收集和整合这些数据集是一项复杂且耗时的任务。其次,不同数据集之间可能存在格式、结构和内容上的差异,这给数据预处理和标准化带来了困难。此外,阿拉伯语的多样性和地区差异也增加了语言模型训练和评估的复杂性。最后,由于M-A-D是一个不断发展的集合,其规模和内容的动态变化要求研究者持续关注并更新相关资源和工具。
常用场景
经典使用场景
在阿拉伯语自然语言处理领域,M-A-D/Mixed-Arabic-Datasets-Repo 数据集提供了丰富的文本资源,涵盖文本分类、问答、翻译、摘要、对话、文本生成等多种任务。例如,使用 Ara--MBZUAI--Bactrian-X 数据集进行指令输入与输出的对齐训练,能够有效提升模型在阿拉伯语指令处理任务上的表现。
实际应用
M-A-D/Mixed-Arabic-Datasets-Repo 数据集在实际应用场景中具有广泛的应用前景。例如,在社交媒体分析、舆情监测、智能客服等场景中,该数据集可以帮助开发者训练出更准确、更符合阿拉伯语使用习惯的语言模型,从而提升应用的效果和用户体验。
衍生相关工作
基于 M-A-D/Mixed-Arabic-Datasets-Repo 数据集,已经衍生出许多经典的工作。例如,一些研究者利用该数据集进行阿拉伯语语言模型的预训练,并取得了显著的成果;另外,一些研究者利用该数据集进行阿拉伯语文本分类、情感分析等任务,并取得了良好的效果。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

中国农村教育发展报告

该数据集包含了中国农村教育发展的相关数据,涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。

www.moe.gov.cn 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

RadDet

RadDet是一个包含11种雷达类别的数据集,包括6种新的低概率干扰(LPI)多相码(P1, P2, P3, P4, Px, Zadoff-Chu)和一种新的宽带调频连续波(FMCW)。数据集覆盖500 MHz频段,包含40,000个雷达帧,分为训练集、验证集和测试集。数据集在两种不同的雷达环境中提供:稀疏数据集(RadDet-1T)和密集数据集(RadDet-9T)。

github 收录