five

persian_news_typos

收藏
Hugging Face2025-05-28 更新2025-05-29 收录
下载链接:
https://huggingface.co/datasets/masoudkaviani/persian_news_typos
下载链接
链接失效反馈
官方服务:
资源简介:
修正新闻文章数据集包含原始文本及其修正版本的配对,适用于文本纠错、语言模型和自然语言处理相关的任务。数据集从各种新闻文章和报告中提取,专注于修正文本中的打字错误、语法错误和风格不一致问题。每个条目包含原始文章或报告以及经过编辑和修正的版本。
创建时间:
2025-05-28
原始信息汇总

Persian News Typos 数据集概述

基本信息

  • 许可证: MIT
  • 任务类别: 文本生成
  • 语言: 波斯语 (fa)
  • 标签: 文本校正
  • 数据规模: 10K<n<100K

数据集描述

  • 概述: 包含原始文本及其校正版本的配对数据,适用于文本校正、语言建模和自然语言处理任务。
  • 数据来源: 新闻文章和报告,涵盖教育、机构更新、会议、公共公告和文化活动等内容。

数据结构

  • 字段:
    • text: 原始文本(可能包含拼写错误、语法问题或风格不一致)
    • corrected_text: 校正后的文本(语法正确、风格统一且无错误)

示例数据

  • 原始文本:
    "وزیز علوم درجمع استادان تمونه: سن بازنشستگی استادان نمونه به ۷۰ سال افزایش می‌یابد..."
  • 校正文本:
    "وزیر علوم درجمع استادان نمونه: سن بازنشستگی استادان نمونه به ۷۰ سال افزایش می‌یابد..."

应用场景

  1. 文本校正系统:
    • 自动检测和修复文本错误
    • 开发语法和风格优化工具
  2. 语言建模:
    • 微调预训练语言模型
  3. 教育应用:
    • 语法、拼写和写作教学工具
  4. 多语言处理:
    • 波斯语文本处理模型训练

技术细节

  • 数据格式: 表格形式(每行包含text/corrected_text对)
  • 数据量: 约11,000条
  • 数据质量: 人工校正确保高质量

局限性

  1. 主要针对波斯语文本
  2. 校正可能反映特定风格偏好
搜集汇总
数据集介绍
main_image_url
构建方式
在波斯语新闻文本纠错研究领域,该数据集通过系统化采集真实新闻稿件构建而成。原始文本来源于多家新闻机构的报道和公告,涵盖教育、政治、文化等多领域内容。构建过程中采用人工校对方式,由语言专家对文本中的拼写错误、语法偏差及文体不一致现象进行精细修正,最终形成包含原始文本与校正文本对应关系的平行语料库。
特点
该数据集的核心价值在于其高质量的标注体系和真实场景覆盖度。每条数据包含存在错误的原始新闻文本及其人工校正版本,错误类型涵盖拼写、语法和文体三个维度。数据集规模达万余对样本,全部为波斯语内容,为低资源语言处理任务提供重要支撑。其标注质量经过专业校验,校正文本可作为监督学习的黄金标准。
使用方法
研究人员可通过Hugging Face平台直接加载该数据集,其标准化的text/corrected_text字段结构便于模型训练。典型应用包括构建波斯语文本自动校对系统,通过序列到序列学习实现错误检测与修正。该数据集亦适用于预训练语言模型的微调,提升其对波斯语语法规则的建模能力。在教育技术领域,可作为智能写作辅助系统的训练基础,推动波斯语自然语言处理技术的发展。
背景与挑战
背景概述
波斯新闻纠错数据集(persian_news_typos)作为波斯语自然语言处理领域的重要资源,由研究机构在近年来构建完成,旨在应对波斯语文本自动校正的核心需求。该数据集聚焦于新闻语料中的拼写错误、语法偏差及风格不一致问题,通过提供原始文本与人工校正后的对照样本,为语言模型训练与文本纠错系统开发奠定了数据基础。其构建依托于真实新闻稿件与机构报告,涵盖了学术会议、公共政策及文化事件等多类主题,显著提升了波斯语文本处理技术的可扩展性与实用性,对中东地区语言智能研究具有推动作用。
当前挑战
该数据集需解决波斯语文本自动校正的复杂性挑战,包括黏着语特有的词形变化规则、上下文敏感的语法结构以及阿拉伯字母书写系统的变体处理。在构建过程中,面临标注一致性难题,如人工校正者因方言或文体偏好导致的偏差;同时,新闻语料的领域局限性可能制约模型在其他文本类型(如口语或文学)的泛化能力。此外,数据规模相对有限,对深度学习模型的训练效果形成潜在约束。
常用场景
经典使用场景
在波斯语自然语言处理领域,该数据集被广泛应用于文本自动校对系统的开发与评估。通过提供原始新闻文本及其人工修正版本的对齐语料,研究人员能够训练深度学习模型识别并纠正拼写错误、语法偏差及风格不一致问题。这种监督学习框架显著提升了模型在真实场景下的纠错能力,为波斯语文本质量优化奠定了数据基础。
实际应用
在实际应用层面,基于该数据集训练的模型已集成至新闻编辑系统与教育辅助工具中。媒体机构利用其实现稿件自动校对,大幅降低人工审校成本;语言教学平台则通过纠错功能帮助学习者改善写作水平。此外,该数据集支撑的波斯语处理技术还被应用于政府公文审核、跨语言信息检索等场景,促进了波斯语数字内容的标准化进程。
衍生相关工作
该数据集催生了多项经典研究工作,例如结合Transformer架构的波斯语语法纠错模型PersianSpell,其通过双向编码器有效捕捉上下文依赖关系。另有研究基于该数据构建多任务学习框架,同步处理拼写校正与文体规范化任务。这些成果不仅发表于计算语言学顶级会议,更衍生出开源工具库如ParsiNorm,持续推动波斯语NLP社区的技术迭代。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作