five

asas-ai/arabic_punctuation

收藏
Hugging Face2024-02-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/asas-ai/arabic_punctuation
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个专门用于研究标点符号的精选数据集,经过了严格的手动标注和验证,句子边界清晰标记。数据集分为三个部分:1. ABC组件:包含手动标注的标点符号标准,由45本非小说类书籍的章节组成,共149K个标记和13K个句子。2. CBT组件:包含1085个文本文件,是从英语翻译成阿拉伯语的完整书籍文本,接近3M个单词和170K个正确标点的句子。3. SSAC-UNPC组件:包含从联合国平行语料库中提取的阿拉伯语句子,接近12M个无序的完整句子,共309M个单词。
提供机构:
asas-ai
原始信息汇总

数据集详情

数据集描述

这是一个经过精心策划的数据集,专门设计用于促进标点符号的研究。它基于句子结构进行了严格的手动注释和验证,句子边界清晰标记。数据集分为三个文件夹:

  1. 阿拉伯标点符号数据集的ABC部分:该文件夹包含手动注释的标点符号黄金标准。它由来自36位作者的45本非虚构书籍中的每一章节提取而成,涵盖19个不同学科领域。包含45个文本文件,总计149K个词元,分布在13K个句子中。

  2. CBT部分:该文件夹包含1085个文本文件,分布在60个子文件夹中,是完整书籍翻译的全文,这些书籍是从英语独立翻译成阿拉伯语的。我们发现这些阿拉伯文本的标点符号反映了英语源语言文本的规则,即这些阿拉伯文本中的句子终端遵循英语规则。该文件夹中包含近300万个单词,分布在超过17万个正确标点的句子中。

  3. SSAC-UNPC部分:该文件夹构成了阿拉伯标点符号数据集的第三部分。它包含近1200万个断开、无序、完整的句子,分布在79个文本文件中。这些打乱的句子是从联合国平行语料库(UNPC)的主要是阿拉伯语的法律子语料库中提取的。这里的标点符号是真实的,由联合国翻译人员作为其工作的一部分完成。我们认为这是一个优秀的标点符号语料库,因为它反映了英语源文档的规则性标点符号,特别是在句子终端方面。这些打乱的句子总计超过30900万个单词。

重现步骤

  • ABC部分:手动注释和验证。
  • CBT数据集:从在线图书馆提取的翻译书籍。
  • SSAC-UNPC数据集:从联合国平行语料库的阿拉伯语部分提取的完整句子。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作