five

Tibyan Corpus|语法错误修正数据集|阿拉伯语数据集

收藏
arXiv2024-11-07 更新2024-11-12 收录
语法错误修正
阿拉伯语
下载链接:
http://arxiv.org/abs/2411.04588v1
下载链接
链接失效反馈
资源简介:
Tibyan Corpus是由沙特电子大学和阿卜杜勒阿齐兹国王大学联合开发的阿拉伯语语法错误修正数据集。该数据集包含约600,000个Tokens,旨在解决阿拉伯语语法错误修正领域数据资源有限的问题。数据集通过ChatGPT生成,结合了从阿拉伯书籍和开放语料库中收集的句子对,经过语言学专家的审核和验证,确保了数据的高质量和准确性。Tibyan Corpus主要应用于阿拉伯语语法错误修正模型的训练和评估,旨在提高模型对多种语法错误的识别和修正能力。
提供机构:
沙特电子大学计算机科学系,阿卜杜勒阿齐兹国王大学信息与计算技术学院
创建时间:
2024-11-07
AI搜集汇总
数据集介绍
main_image_url
构建方式
Tibyan Corpus的构建过程融合了多种数据源,包括从阿拉伯书籍和公开访问的语料库中收集的成对阿拉伯文本。首先,研究团队从各种书籍中提取了包含常见语法错误的短句及其修正版本。随后,利用ChatGPT作为数据增强工具,基于这些短句生成完整的句子对,其中一对包含错误,另一对则无错误。为确保生成的句子准确无误,研究团队邀请了语言学专家进行审查和验证,并通过迭代反馈不断优化语料库的准确性。最后,使用阿拉伯错误类型注释工具(ARETA)对语料库中的错误类型进行了分析和分类。
特点
Tibyan Corpus的一个显著特点是其全面且平衡的错误覆盖率。该语料库包含了七种主要错误类型:拼写、形态、句法、语义、标点、合并和分割错误,覆盖了阿拉伯语法错误的广泛领域。此外,语料库的构建过程中引入了语言学专家的验证,确保了数据的高质量和准确性。语料库的规模约为600,000个词符,为阿拉伯语法错误纠正研究提供了丰富的资源。
使用方法
Tibyan Corpus主要用于阿拉伯语法错误纠正(GEC)模型的训练和评估。研究者可以通过该语料库获取大量包含语法错误的句子及其修正版本,用于训练和验证GEC模型。此外,语料库中的错误类型注释为研究者提供了详细的错误分类信息,有助于深入分析和改进GEC模型的性能。研究者还可以利用该语料库进行数据增强技术的研究,探索如何更有效地生成和利用语法错误数据。
背景与挑战
背景概述
Tibyan Corpus,由Ahlam Alrehili和Areej Alhothali于2024年创建,旨在解决阿拉伯语语法错误纠正(GEC)领域中的数据稀缺和质量问题。该数据集利用ChatGPT作为数据增强工具,通过从阿拉伯书籍中提取包含语法错误的句子对,生成一个全面的错误覆盖语料库。Tibyan Corpus的构建不仅填补了阿拉伯语GEC研究的空白,还为该领域的进一步发展提供了宝贵的资源。该数据集包含了约600,000个标记,涵盖了七种主要错误类型,包括正字法、形态学、句法、语义、标点符号、合并和分割错误。
当前挑战
Tibyan Corpus在构建过程中面临多项挑战。首先,阿拉伯语作为一种资源有限的语言,其语法错误纠正领域的数据集相对匮乏,仅有QALB-14和QALB-15两个数据集可用,且规模较小。其次,数据增强技术的应用在阿拉伯语领域尚未得到充分探索,这增加了构建高质量语料库的难度。此外,确保自动生成句子的准确性和无错误性,需要通过语言学专家的反复验证和修正,这一过程既耗时又复杂。最后,如何平衡不同类型错误的比例,以确保数据集的全面性和代表性,也是该数据集面临的重要挑战。
常用场景
经典使用场景
Tibyan Corpus 在阿拉伯语语法错误纠正(GEC)领域中扮演着至关重要的角色。该数据集通过利用 ChatGPT 生成包含语法错误的句子及其纠正版本,极大地丰富了阿拉伯语 GEC 的训练数据。其经典使用场景包括训练和评估阿拉伯语 GEC 模型,这些模型能够自动检测和纠正文本中的语法错误,从而提高文本的准确性和可读性。
实际应用
Tibyan Corpus 在实际应用中具有广泛的前景。它可以用于开发阿拉伯语的拼写检查工具、文本编辑软件以及教育辅助系统。通过这些应用,Tibyan Corpus 能够帮助阿拉伯语学习者提高写作水平,同时也为阿拉伯语母语者提供了一个强大的文本校对工具,从而提升文本质量和沟通效率。
衍生相关工作
Tibyan Corpus 的发布激发了大量相关研究工作。例如,研究者们利用该数据集开发了新的阿拉伯语 GEC 模型,这些模型在错误检测和纠正的准确性上有了显著提升。此外,Tibyan Corpus 还促进了跨语言 GEC 的研究,推动了多语言语法错误纠正技术的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录