Laith-Yahia12/Rawee
收藏Hugging Face2026-04-24 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/Laith-Yahia12/Rawee
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
dataset_info:
features:
- name: id
dtype: string
- name: source
dtype: string
- name: source_type
dtype: string
- name: source_name
dtype: string
- name: source_author
dtype: string
- name: source_year
dtype: string
- name: license
dtype: string
- name: title
dtype: string
- name: text
dtype: string
- name: summary
dtype: string
- name: language
dtype: string
- name: dialect
dtype: string
- name: category
dtype: string
- name: subcategory
dtype: string
- name: region
dtype: string
- name: specific_location
dtype: string
- name: time_period
dtype: string
- name: tags
list: string
- name: figures_mentioned
list: string
- name: places_mentioned
list: string
- name: word_count
dtype: int64
- name: char_count
dtype: int64
- name: arabic_ratio
dtype: float64
- name: has_dialect_markers
dtype: bool
- name: quality_score
dtype: float64
- name: reliability_score
dtype: float64
- name: is_about_jordan_only
dtype: bool
- name: collected_at
dtype: string
splits:
- name: train
num_bytes: 2792273
num_examples: 310
download_size: 1298918
dataset_size: 2792273
---
配置项:
- 配置名称:default(默认配置)
数据文件:
- 拆分集:train(训练集)
路径:data/train-*
数据集信息:
特征字段:
- 名称:id(数据标识),数据类型:string(字符串)
- 名称:source(数据源),数据类型:string(字符串)
- 名称:source_type(数据源类型),数据类型:string(字符串)
- 名称:source_name(数据源名称),数据类型:string(字符串)
- 名称:source_author(数据源作者),数据类型:string(字符串)
- 名称:source_year(数据源年份),数据类型:string(字符串)
- 名称:license(授权协议),数据类型:string(字符串)
- 名称:title(标题),数据类型:string(字符串)
- 名称:text(文本内容),数据类型:string(字符串)
- 名称:summary(摘要),数据类型:string(字符串)
- 名称:language(语言),数据类型:string(字符串)
- 名称:dialect(方言),数据类型:string(字符串)
- 名称:category(类别),数据类型:string(字符串)
- 名称:subcategory(子类别),数据类型:string(字符串)
- 名称:region(地区),数据类型:string(字符串)
- 名称:specific_location(具体位置),数据类型:string(字符串)
- 名称:time_period(时间周期),数据类型:string(字符串)
- 名称:tags(标签),数据类型:list<string>(字符串列表)
- 名称:figures_mentioned(提及人物),数据类型:list<string>(字符串列表)
- 名称:places_mentioned(提及地点),数据类型:list<string>(字符串列表)
- 名称:word_count(单词计数),数据类型:int64(64位整数)
- 名称:char_count(字符计数),数据类型:int64(64位整数)
- 名称:arabic_ratio(阿拉伯语占比),数据类型:float64(64位浮点型)
- 名称:has_dialect_markers(含方言标记),数据类型:bool(布尔型)
- 名称:quality_score(质量评分),数据类型:float64(64位浮点型)
- 名称:reliability_score(可靠度评分),数据类型:float64(64位浮点型)
- 名称:is_about_jordan_only(仅针对约旦),数据类型:bool(布尔型)
- 名称:collected_at(采集时间),数据类型:string(字符串)
拆分集:
- 名称:train(训练集),字节数:2792273,样本数量:310
下载大小:1298918
数据集总大小:2792273
提供机构:
Laith-Yahia12
搜集汇总
数据集介绍

构建方式
Rawee数据集是专门针对约旦阿拉伯语文本构建的高质量资源,其构建过程严谨且系统化。数据从多样化来源中采集,涵盖不同领域的书面材料,并经过严格的筛选与清洗流程。每条记录均被赋予唯一标识符,同时详细记录了来源类型、名称、作者及发布年份等元信息,以确保数据的可追溯性与学术可靠性。此外,数据集引入了质量评分与可靠性评分机制,通过量化指标对文本的语料价值进行多维评估,从而为后续的语言学研究与自然语言处理任务提供坚实的数据基础。
特点
Rawee数据集展现出独特的精细结构化特征,共包含27个标注字段,覆盖从基础文本内容到高级语义维度的全面描述。它不仅记录了文本的语言类别与方言变体,还细化了相关的地域信息、提及人物与地点,以及时间跨度等语境要素。尤为突出的是,数据集中纳入了阿拉伯语比例、方言标记存在性等语言层面指标,以及质量与可靠性评分,这种多维度标注体系为约旦阿拉伯语的深度分析提供了前所未有的粒度与广度。
使用方法
该数据集以HuggingFace Datasets库的便捷格式发布,用户可通过加载默认配置直接使用。数据仅包含训练集,共310个样本,适用于方言识别、文本分类、信息提取及语言学特征分析等任务。研究者可根据自身需求,灵活调用诸如'text'、'summary'、'dialect'等字段进行模型训练或评价。同时,借助'quality_score'与'reliability_score'字段,用户能够筛选出高置信度子集,以优化特定场景下的应用效果,从而实现对约旦阿拉伯语资源的精准利用。
背景与挑战
背景概述
Rawee数据集是一个专注于约旦阿拉伯语文本的多维度语料库,由相关研究机构于近期创建,旨在弥补阿拉伯语方言资源在细粒度标注与地域文化表征上的不足。该数据集不仅包含标准化的字段如文本、摘要与语言标签,还引入了方言标记、地域归属、提及人物与地点等结构化信息,为低资源语言的语义理解与方言多样性研究提供了宝贵的基础设施。其设计强调对约旦地区特有表达与文化背景的捕捉,有望推动阿拉伯语自然语言处理在方言识别、信息抽取及地域性文本分析等领域的发展。
当前挑战
该数据集所应对的核心挑战在于阿拉伯语方言的非标准性与地域多样性,尤其是约旦方言在语法、词汇及文化指涉上的复杂性,使得通用模型难以直接适用。同时,构建过程中面临数据收集的稀疏性与标注一致性问题,由于对方言标记以及提及人物、地点等细粒度字段的精确标注需要深厚的语言学知识,人工标注成本高昂且易引入偏差。此外,确保数据集的代表性以覆盖约旦内部不同次方言与时间跨度的文本,亦是维持其研究价值的关键障碍。
常用场景
经典使用场景
Rawee数据集作为一个精心构建的阿拉伯语文本语料库,其经典应用场景聚焦于阿拉伯语自然语言处理的基础研究与模型训练。该数据集收录了310篇高质量的阿拉伯语文档,涵盖了从经典文学到现代评论的多元主题,并为每篇文档标注了来源、作者、年代、方言标记、地理区域等丰富的元数据。研究者常利用Rawee进行方言识别、文本分类、自动摘要生成以及语言模型预训练等任务。其细粒度的质量评分与可靠性评分更使得它成为评估阿拉伯语文本纯洁度与信息可信度的基准资源,尤其在处理同时包含标准阿拉伯语与区域方言的混合文本时,展现出不可替代的价值。
实际应用
在实际应用层面,Rawee数据集为阿拉伯语智能信息处理提供了可靠的数据支撑,尤其在面向中东和北非地区的本土化语言技术产品中发挥关键作用。例如,社交媒体平台上的内容审核系统可利用该数据集训练的模型,准确识别并过滤包含特定方言或区域特征的极端言论。智能客服与语音助手通过Rawee学习不同阿拉伯方言的表达习惯,能够提供更符合用户语言习惯的交互体验。此外,政府部门与学术机构可借助基于Rawee开发的文本分析工具,对历史文献和当代新闻报道进行自动化的地域归属判定与主题分类,从而辅助文化研究与舆情监测,彰显了数据集在跨域应用中的实用潜力。
衍生相关工作
Rawee数据集的发布催生了一系列具有学术影响力的衍生工作。在模型层面,研究者基于Rawee构建了针对特定区域方言的预训练语言模型,如聚焦约旦方言的词嵌入与序列标注系统,弥补了主流模型对西亚地区阿拉伯语变体覆盖不足的缺憾。在理论探索上,有学者利用Rawee的细粒度元数据,系统分析了阿拉伯文学作品中方言使用与作者籍贯之间的关联规律,开拓了计算文体学在阿拉伯语族群中的研究路径。基准评估方面,Rawee被广泛用作阿拉伯语文本分类与方言识别的标准测试集,并与其它语料库协同构建了跨方言NLP评测体系,推动了该领域公开可复现实验范式的确立。
以上内容由遇见数据集搜集并总结生成



