81melody/algerian-realestate-ner-dataset
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/81melody/algerian-realestate-ner-dataset
下载链接
链接失效反馈官方服务:
资源简介:
这是一个专门用于命名实体识别的数据集,源自阿尔及利亚数字房地产市场Facebook群组中的复杂现实场景。数据集包含13个标记实体和7138个训练示例,涵盖了阿尔及利亚达尔贾方言(Darja)、阿拉伯语、法语和阿拉伯数字(Arabizi)之间的代码转换。该数据集通过提供标注语料库,填补了低资源方言NLP的空白,能够训练最先进的房地产信息提取模型。数据集分为标准的训练集、验证集和测试集,并采用了27标签的BIO(Begin, Inside, Outside)模式,基于13个核心实体类型。隐私保护方面,电话号码等个人信息被匿名化处理。数据集适用于房地产领域的信息提取任务,支持多种语言和方言的混合使用。
This is a specialized Named Entity Recognition dataset extracted from the complex reality of the Algerian digital real-estate market in Facebook groups, it contains 13 labeled entity and 7138 training example. Real estate advertisements in Algeria (found on Facebook groups) are unstructured, noisy and bloated with code-switching between Algerian Darja (dialect), Arabizi, Standard Arabic, and French. This dataset bridges the gap for low resource dialectal NLP by providing a labeled corpus capable of training state-of-the-art real-estate information extraction models. The dataset is split into standard Training, Validation, and Test sets and uses a 27 label BIO (Begin, Inside, Outside) schema based on 13 core entity types essential for real-estate information extraction. Privacy measures include anonymization of Personally Identifiable Information. The dataset is designed for real estate domain information extraction tasks, supporting multiple languages and dialects.
提供机构:
81melody
搜集汇总
数据集介绍

构建方式
该数据集源自阿尔及利亚房地产Facebook群组中的真实广告文本,利用Facebook API完成原始语料的采集。面对阿尔及利亚房地产广告普遍存在的非结构化、噪声大以及多语种混写(阿尔及利亚方言、阿拉伯语转写、现代标准阿拉伯语与法语)等挑战,数据构建采用了统一的BIO标注体系,涵盖13种核心实体类型和27个标签。针对隐私保护,所有电话号码实体被统一替换为占位符[PHONE],同时保留其BIO标签以维持模型的序列学习能力。数据划分严格遵循机器学习标准流程,共包含7138条训练样本、586条验证样本及596条测试样本。
特点
数据集最显著的特点在于其高度真实且复杂的多语码混用环境,集中反映了阿尔及利亚社交媒体上典型的口语化与非标准化表达。实体类型设计紧扣房地产信息抽取需求,涵盖物业类型、公寓类别、交易性质、省份、街区、价格、面积、楼层、设施、法律文件及房屋状态等维度,尤其包含当地特有的货币单位(如Milliards, U)和方言词汇。由于来源平台主要为Facebook,数据风格偏于非正式,但在词汇拼写的高度变异性(如Appartement的多种变体)中保持了实体的统一标注,具有鲜明的低资源方言NLP领域特色。
使用方法
用户可通过Hugging Face的datasets库轻松加载该数据集,推荐使用load_dataset接口直接获取。加载后需利用cast方法配合Features对象(Sequence与ClassLabel)将ner_tags字段映射为27类标签名称(如LABEL_0至LABEL_26),以便与基于DeBERTa等模型微调时的分类器输出对齐。数据集预分割为train/validation/test三部分,可直接用于序列标注模型的训练、超参数调优与评测。适合搭配如AlgerianDeBERTa或dziriBERT等预训练语言模型使用,在房地产领域信息抽取任务上进行微调。
背景与挑战
背景概述
在低资源方言自然语言处理领域,面向非标准阿拉伯语变体的命名实体识别(NER)研究长期面临语料匮乏的困境,尤其是阿尔及利亚阿拉伯语(Darija)、Arabizi与法语高度混杂的社交媒介文本。2026年,由研究者Ayoub Himeur构建的algerian-realestate-ner-dataset应运而生,该数据集聚焦阿尔及利亚数字房地产市场的Facebook群组广告,旨在弥合方言NER在信息抽取中的结构性鸿沟。数据源自真实社交平台,包含7138条训练样本、586条验证样本与596条测试样本,覆盖13类核心实体,并采用27标签BIO标注体系。其发布为AlgerianDeBERTa、dziriBERT等模型的领域微调提供了关键基准,推动了多语码混合场景下结构化信息抽取的研究进程。
当前挑战
该数据集所解决的领域挑战根植于阿尔及利亚房地产广告的高度非结构化特征:文本充斥着方言(Darija)、Arabizi、标准阿拉伯语与法语的频繁语码转换,且同一实体存在极高拼写变异性,如‘Appartement’可写作‘apartement’、‘برطمة’或‘ابارتومون’,增大了语义归一化难度。构建过程中,数据采集仅依赖Facebook群组,引发平台偏差与语域局限,模型在正式法律文档上的泛化能力受限;同时,针对货币格式(如Milliards、U、DA)与电话号码的匿名化处理,要求在保留位置上下文的前提下消除隐私信息,对标注一致性与标签完整性提出严苛考验。这些挑战共同定义了低资源方言NER在真实社交媒体场景中的核心研究壁垒。
常用场景
经典使用场景
该数据集专为多语言代码混合场景下的命名实体识别任务而构建,广泛应用于从阿尔及利亚房地产Facebook群组中提取结构化的房产信息。其经典使用场景包括利用预训练语言模型(如AlgerianDeBERTa或dziriBERT)进行微调,以实现对房产类型、交易方式、地理位置、价格、面积、楼层、配套设施及法律文件等13类实体的精准识别与标注。数据集的BIO标签体系为27个标签,能够有效处理阿尔及利亚达里加方言、阿拉伯语、法语及阿拉伯语拉丁化拼写等复杂语言混合现象,为低资源方言的自然语言处理研究提供了重要的标注基准。
实际应用
在实际应用中,该数据集支撑起阿尔及利亚房地产市场的智能化信息聚合系统。通过训练命名实体识别模型,可以自动化从海量社交媒体广告中抽取关键信息,如房源所在地(省份、街区)、交易类型(出售、出租)、价格区间及建筑面积等,进而构建实时更新的房产数据库。这一技术能够帮助中介平台实现房源自动分类与检索,为购房者提供智能过滤服务,同时也服务于市场分析机构进行区域房价趋势预测。此外,针对个人身份信息的匿名化处理策略,确保了系统在隐私合规前提下高效运行。
衍生相关工作
该数据集衍生了一系列经典工作,主要集中在低资源方言的表示学习与跨语言迁移模型。例如,基于该数据集微调的AlgerianDeBERTa模型被证明在代码混合文本上显著优于传统多语言BERT。后续研究进一步探索了数据增强方法(如回译与拼写规范化)以提升模型鲁棒性,以及结合注意力机制的实体边界检测技术。该数据集还催生了针对阿尔及利亚房地产领域的端到端信息抽取管线,部分工作将其与关系抽取任务结合,构建出房产实体间的空间与属性关联图,推动了结构化知识在垂直搜索与推荐系统中的应用。
以上内容由遇见数据集搜集并总结生成



