Arabic Text Normalizer
收藏RapidAPI2026-03-24 更新2026-03-25 收录
下载链接:
https://rapidapi.com/amrsaeedhosny/api/arabic-text-normalizer
下载链接
链接失效反馈官方服务:
资源简介:
High-performance Arabic text standardization for search and AI.
创建时间:
2026-03-24
原始信息汇总
Arabic Text Normalizer API 数据集概述
基本信息
- 名称: Arabic Text Normalizer
- 类别: Text Analysis
- 提供商: Amr Saeed
- 订阅者数量: 1
- 版本: 1.0 (current)
- 定价方案:
- BASIC: $0.00 / mo
- PRO: $9.99 / mo
- ULTRA: $29.99 / mo
API 概述
- 功能描述: 高性能阿拉伯语文本标准化,适用于搜索和人工智能。
- 技术描述: 一个高性能、语言准确的阿拉伯语文本规范化引擎。专为构建搜索引擎、NLP模型和数据清洗管道的开发者设计,其中速度和精度至关重要。
主要特性
- 单次处理: 优化的 $O(n)$ 字符级转换。
- 可配置规则: 完全控制应用哪些规范化规则。
- 智能默认值: 开箱即用,支持常见的阿拉伯语文本清洗。
- 零依赖: 使用纯 Go 构建,以实现最大的可移植性和速度。
规范化规则与选项
API 接受一组布尔选项。默认情况下,大多数选项已启用以提供最干净的输出。
| 选项 | 默认值 | 描述 |
|---|---|---|
unify_alef |
true |
将 آ، أ، إ، ٱ 标准化为纯 ا。 |
unify_ya |
true |
将 ى (Alef Maksura) 转换为 ي (Ya)。 |
unify_waw_hamza |
true |
将 ؤ 转换为纯 و。 |
unify_teh_marbuta |
true |
将 ة 转换为 ه。 |
strip_tashkeel |
true |
移除所有阿拉伯语变音符号 (Fatha, Damma 等)。 |
strip_tatweel |
true |
移除装饰性延长符号 (ـ)。 |
strip_punctuation |
true |
移除阿拉伯语和西方标点符号。 |
standardize_numbers |
true |
将印度数字 (٠١٢) 转换为西方数字 (012)。 |
remove_stop_words |
false |
过滤掉常见的阿拉伯语代词和连词。 |
trim_spaces |
true |
移除前导/尾随和冗余的内部空格。 |
技术使用
API 请求示例
- 端点:
POST /v1/normalize - 请求体: json { "text": "السَّلامُ عَلَيْكُمْ يَا أَصْدِقَائِي ٠١٢", "options": { "unify_alef": true, "remove_stop_words": true, "standardize_numbers": true } }
API 响应示例
- 响应体: json { "normalized_text": "السلام عليكم اصدقائي 012", "metadata": { "original_length": 38, "normalized_length": 25, "processing_time_ms": 0.15, "applied_rules": [ "unify_alef", "strip_tashkeel", "standardize_numbers", "remove_stop_words", "trim_spaces" ] } }



