M-A-D/Mixed-Arabic-Dataset-Main
收藏Hugging Face2023-10-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/M-A-D/Mixed-Arabic-Dataset-Main
下载链接
链接失效反馈官方服务:
资源简介:
Mixed Arabic Datasets (MAD)项目提供了一个全面的阿拉伯语数据集集合,涵盖了书籍、文章、维基百科内容、故事等多种文本类型。数据集分为MAD Repo和MAD Main两种形式,MAD Repo提供原始数据集,而MAD Main则是一个统一的数据框架,整合了所有MAD Repository中的数据集。使用MAD Main的优势包括效率、互操作性和元分析能力。
提供机构:
M-A-D
原始信息汇总
数据集卡片 for "Mixed-Arabic-Dataset"
混合阿拉伯语数据集 (MAD)
混合阿拉伯语数据集 (MAD) 项目提供了一个全面的阿拉伯语数据集集合,这些数据集来自各种存储库、平台和领域。这些数据集涵盖了广泛的文本类型,包括书籍、文章、维基百科内容、故事等。
MAD 存储库 vs. MAD 主数据集
MAD 存储库
- 多样性:在 MAD 存储库 (MAD Repo) 中,数据集以原始的本地形式提供。研究人员和从业者可以选择性地下载符合其特定兴趣或要求的数据集。
- 独立访问:每个数据集都是自包含的,使用户能够独立地处理单个数据集,允许进行专注的分析和实验。
MAD 主数据集或简称 MAD
- 统一数据框:MAD 主数据集代表了一个协调和统一的数据框,包含了 MAD 存储库中的所有数据集。它提供了一个无缝且综合的整个 MAD 集合视图,便于进行全面的分析和应用。
- 整体视角:研究人员可以在一个数据框内访问广泛的阿拉伯语文本内容,促进对不同文本来源的整体探索和洞察。
为什么选择 MAD 主数据集?
- 效率:使用 MAD 主数据集通过将多个数据集整合到一个结构化数据框中,简化了数据获取过程。这对于需要多样化数据源的大规模项目或研究特别有益。
- 互操作性:通过 MAD 主数据集,数据集被集成到标准化格式中,增强了与广泛的数据处理和分析工具的互操作性和兼容性。
- 元分析:研究人员可以利用所有 MAD 数据集的丰富性进行全面的分析,如跨领域研究、趋势分析或比较研究。
开始使用
- 要访问原始形式的个人数据集,请参考 MAD 存储库(MAD Repo 链接)。
- 对于所有数据集的统一视图,方便地组织在一个数据框中,您在这里是正确的位置。
python from datasets import load_dataset
dataset = load_dataset("M-A-D/Mixed-Arabic-Dataset-Main")
数据集信息
特征
- GenId: 数据类型为 int64
- SubId: 数据类型为 int64
- DatasetName: 数据类型为 string
- DatasetLink: 数据类型为 string
- Text: 数据类型为 string
- MetaData: 结构化数据,包含以下字段:
- AboutAuthor: 数据类型为 string
- AboutBook: 数据类型为 string
- Author: 数据类型为 string
- AuthorName: 数据类型为 string
- BookLink: 数据类型为 string
- BookName: 数据类型为 string
- ChapterLink: 数据类型为 string
- ChapterName: 数据类型为 string
- Tags: 数据类型为 float64
- index_level_0: 数据类型为 float64
- created_date: 数据类型为 string
- deleted: 数据类型为 bool
- detoxify: 数据类型为 null
- emojis: 结构化数据,包含以下字段:
- count: 序列类型为 int32
- name: 序列类型为 string
- id: 数据类型为 string
- labels: 结构化数据,包含以下字段:
- count: 序列类型为 int32
- name: 序列类型为 string
- value: 序列类型为 float64
- lang: 数据类型为 string
- message_id: 数据类型为 string
- message_tree_id: 数据类型为 string
- model_name: 数据类型为 null
- parent_id: 数据类型为 string
- query_id: 数据类型为 string
- rank: 数据类型为 float64
- review_count: 数据类型为 float64
- review_result: 数据类型为 bool
- role: 数据类型为 string
- synthetic: 数据类型为 bool
- title: 数据类型为 string
- tree_state: 数据类型为 string
- url: 数据类型为 string
- user_id: 数据类型为 string
- ConcatenatedText: 数据类型为 int64
- index_level_0: 数据类型为 float64
数据分割
- train: 包含 131393 个样本,总字节数为 1990497610
数据集大小
- 下载大小: 790648134 字节
- 数据集大小: 1990497610 字节



