tunisian-derja-unified-raw-corpus
收藏Hugging Face2025-08-17 更新2025-08-18 收录
下载链接:
https://huggingface.co/datasets/hamzabouajila/tunisian-derja-unified-raw-corpus
下载链接
链接失效反馈官方服务:
资源简介:
突尼斯方言统一原始语料库是一个包含大约802,659个突尼斯阿拉伯语(又称Derja)文本示例的综合集合,这是一种在突尼斯广泛使用的阿拉伯语方言。这个原始语料库整合了来自多个来源的数据,包括社交媒体、对话转录、聊天机器人对话以及其他公开的Derja数据集。它经过了跨源去重,提供了一个多样化的、大规模的资源,用于自然语言处理(NLP)和语言学研究。
创建时间:
2025-08-11
原始信息汇总
Tunisian Derja Unified Raw Corpus 数据集概述
数据集基本信息
- 名称: Tunisian Derja Unified Raw Corpus
- 语言: 突尼斯阿拉伯语 (Derja)
- 许可证: CC-BY-SA-4.0
- 大小类别: 100K<n<1M
- 主要用途: 文本生成、文本分类、翻译、语言建模
- 标签: 突尼斯Derja、突尼斯阿拉伯语、方言、代码切换
数据集结构
- 特征:
text: 字符串类型,包含突尼斯Derja的文本样本__index_level_0__: 整数类型
- 数据分割:
train: 860,184 个样本,740,413,018 字节
数据集内容
- 数据实例示例: json { "text": "شد إطفل من يدو وشق بيه إلكياس" }
数据集创建
- 来源数据集:
- linagora/Tunisian_Derja_Dataset
- AzizBelaweid/Tunisian_Language_Dataset
- arbml/Tunisian_Dialect_Corpus
- hamzabouajila/Sample_Tunisiya_Dataset
- abdouuu/tunisian_chatbot_data
- khaled123/tuniset
- 数据去重: 通过删除重复文本减少冗余,最终保留约802,659个独特样本
使用注意事项
- 社会影响: 支持突尼斯Derja的NLP应用,如文化相关的聊天机器人、社交媒体情感分析等
- 偏见讨论:
- 来源偏见: 社交媒体来源可能过度代表非正式或负面情绪
- 代码切换: 包含英语/法语的混合内容可能影响模型性能
- 拼写: 混合阿拉伯语/拉丁字母可能需要标准化处理
- 其他限制:
- 原始数据可能包含噪声(如URL、表情符号、短文本)
- 缺乏标注,需用户自行添加监督学习标签
- 语言纯度问题,部分非Derja文本可能混入
未来工作
- 计划改进:
- 噪声去除(URL、表情符号、短文本)
- 语言过滤以优先处理Derja
- 文本标准化(统一阿拉伯字母、去除变音符号)
- 训练/验证/测试分割以进行基准测试
- 可选标注(如情感分析)
数据集统计
- 样本数量: ~802,659
- 下载大小: ~344 MB
- 存储大小: ~682 MB
- 初步质量指标:
- 噪声比例: ~5-10%
- 语言分布: ~80-90% 阿拉伯语 (Derja),部分英语/法语代码切换
引用信息
bibtex @dataset{bouajila2025tunisian, author = {Hamza Bouajila}, title = {Tunisian Derja Unified Raw Corpus}, year = {2025}, url = {https://huggingface.co/datasets/hamzabouajila/tunisian-derja-unified-raw-corpus} }
贡献与致谢
- 贡献: 欢迎提交拉取请求或问题,反馈计划中的预处理或标注需求
- 致谢: 感谢所有来源数据集的创建者
搜集汇总
数据集介绍

构建方式
在阿拉伯语方言资源相对匮乏的背景下,Tunisian Derja Unified Raw Corpus通过系统整合多个公开数据集构建而成。该语料库汇集了来自社交媒体、聊天机器人对话、推文等多种来源的突尼斯方言文本,采用精确去重技术消除跨数据源的重复内容,最终形成包含约80万条独特文本的大规模资源。数据构建过程中特别保留了原始文本中的代码转换现象和自然语言变体,为后续语言学分析和模型训练提供了丰富的素材基础。
特点
作为突尼斯阿拉伯语领域迄今最全面的文本集合,该数据集最显著的特点是真实反映了方言的自然使用场景。文本中不仅包含纯阿拉伯字母书写的内容,还融合了拉丁字母转写以及阿拉伯语与英法语的代码混合现象。数据规模达到682MB存储空间,覆盖社交互动、日常对话等多种语境,其语言多样性对于研究方言变体和多语言混合现象具有独特价值。值得注意的是,数据集目前保持原始状态,包含约5-10%的噪音数据,这为研究真实场景下的自然语言处理提供了挑战性素材。
使用方法
该数据集主要服务于突尼斯方言的自然语言处理研究,使用前需进行必要的预处理。研究者可直接加载HuggingFace平台提供的train分割文件,通过标准文本处理流程进行清洗和特征提取。针对不同任务需求,建议先实施语言识别过滤以获得纯方言文本,或保留代码混合内容用于多语言建模。由于数据集未预设标准分割,用户需自行划分训练集、验证集和测试集。对于需要干净数据的研究,可关注即将发布的精编版本,该版本将提供去噪处理和标准数据分割。
背景与挑战
背景概述
突尼斯方言统一原始语料库(Tunisian Derja Unified Raw Corpus)由研究者Hamza Bouajila等人于2025年整合发布,旨在解决北非地区低资源阿拉伯语方言的自然语言处理难题。作为突尼斯本土广泛使用的口语变体,Derja长期面临书面语料匮乏、标准化程度低等困境,该语料库通过聚合六个公开数据集及社交媒体文本,构建了包含80万条样本的综合性资源。其多源异构特性显著提升了方言建模的覆盖率,为机器翻译、情感分析等任务提供了关键数据支撑,同时推动了阿拉伯语方言保护与数字包容性研究。
当前挑战
该数据集面临的核心挑战体现在语言学与工程学双重维度。语言层面,Derja固有的代码混合现象(阿拉伯语/法语/英语)导致语义边界模糊,加之非标准拼写变体频现,对文本清洗与语言识别提出极高要求。工程层面,原始语料存在约5-10%的噪声数据(如URL、表情符号),且跨源数据质量差异显著,需设计自适应过滤机制。此外,缺乏标注信息限制了监督学习应用,而社会媒体语料的潜在偏见可能影响下游任务公平性,这些因素共同构成了该数据集应用的关键瓶颈。
常用场景
经典使用场景
在自然语言处理领域,Tunisian Derja Unified Raw Corpus为突尼斯阿拉伯语(Derja)的研究提供了丰富的数据支持。该数据集广泛应用于文本生成任务,如预训练或微调语言模型,以适配突尼斯方言特有的语言结构和表达方式。通过整合社交媒体、对话记录等多种来源的文本,数据集为研究者提供了一个真实且多样化的语言环境,有助于深入理解Derja的语言特征。
解决学术问题
该数据集有效解决了突尼斯阿拉伯语作为低资源方言在自然语言处理研究中的不足问题。通过聚合多个公开数据集并进行去重处理,它为语言模型训练、方言变体分析以及代码切换现象研究提供了高质量的数据基础。其多样化的文本来源覆盖了不同语境和语言风格,为语言学研究和NLP技术开发提供了宝贵的资源。
衍生相关工作
该数据集的发布推动了多个相关研究工作的开展,特别是在突尼斯方言的文本生成和分类任务中。一些经典工作包括基于该数据集的BERT和GPT模型微调实验,以及针对代码切换现象的深入分析。此外,数据集还为突尼斯方言与标准阿拉伯语、英语和法语之间的机器翻译研究提供了重要数据支持。
以上内容由遇见数据集搜集并总结生成



