five

Arabic Text Normalizer

收藏
RapidAPI2026-03-24 更新2026-03-25 收录
下载链接:
https://rapidapi.com/amrsaeedhosny/api/arabic-text-normalizer
下载链接
链接失效反馈
官方服务:
资源简介:
High-performance Arabic text standardization for search and AI.
创建时间:
2026-03-24
原始信息汇总

Arabic Text Normalizer API 数据集概述

基本信息

  • 名称: Arabic Text Normalizer
  • 类别: Text Analysis
  • 提供商: Amr Saeed
  • 订阅者数量: 1
  • 版本: 1.0 (current)
  • 定价方案:
    • BASIC: $0.00 / mo
    • PRO: $9.99 / mo
    • ULTRA: $29.99 / mo

API 概述

  • 功能描述: 高性能阿拉伯语文本标准化,适用于搜索和人工智能。
  • 技术描述: 一个高性能、语言准确的阿拉伯语文本规范化引擎。专为构建搜索引擎、NLP模型和数据清洗管道的开发者设计,其中速度和精度至关重要。

主要特性

  • 单次处理: 优化的 $O(n)$ 字符级转换。
  • 可配置规则: 完全控制应用哪些规范化规则。
  • 智能默认值: 开箱即用,支持常见的阿拉伯语文本清洗。
  • 零依赖: 使用纯 Go 构建,以实现最大的可移植性和速度。

规范化规则与选项

API 接受一组布尔选项。默认情况下,大多数选项已启用以提供最干净的输出。

选项 默认值 描述
unify_alef true آ، أ، إ، ٱ 标准化为纯 ا
unify_ya true ى (Alef Maksura) 转换为 ي (Ya)。
unify_waw_hamza true ؤ 转换为纯 و
unify_teh_marbuta true ة 转换为 ه
strip_tashkeel true 移除所有阿拉伯语变音符号 (Fatha, Damma 等)。
strip_tatweel true 移除装饰性延长符号 (ـ)。
strip_punctuation true 移除阿拉伯语和西方标点符号。
standardize_numbers true 将印度数字 (٠١٢) 转换为西方数字 (012)。
remove_stop_words false 过滤掉常见的阿拉伯语代词和连词。
trim_spaces true 移除前导/尾随和冗余的内部空格。

技术使用

API 请求示例

  • 端点: POST /v1/normalize
  • 请求体: json { "text": "السَّلامُ عَلَيْكُمْ يَا أَصْدِقَائِي ٠١٢", "options": { "unify_alef": true, "remove_stop_words": true, "standardize_numbers": true } }

API 响应示例

  • 响应体: json { "normalized_text": "السلام عليكم اصدقائي 012", "metadata": { "original_length": 38, "normalized_length": 25, "processing_time_ms": 0.15, "applied_rules": [ "unify_alef", "strip_tashkeel", "standardize_numbers", "remove_stop_words", "trim_spaces" ] } }
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作