five

AMR-KELEG/PTCC

收藏
Hugging Face2024-01-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AMR-KELEG/PTCC
下载链接
链接失效反馈
官方服务:
资源简介:
Parallel Tunisian Constitution Corpus (PTCC) 数据集包含149篇文章,使用现代标准阿拉伯语和突尼斯阿拉伯语编写。该数据集是通过将宪法PDF文件转换为文本文件,并使用Python脚本对齐平行文章来创建的。数据集主要用于文本生成任务,涉及法律领域,语言为阿拉伯语。
提供机构:
AMR-KELEG
原始信息汇总

数据集概述

数据集名称

  • Parallel Tunisian Constitution Corpus (PTCC)

数据集描述

  • 该数据集包含149篇文章,用现代标准阿拉伯语和突尼斯阿拉伯语编写。

数据处理

  • 使用Tesseract将宪法的PDF文件转换为文本文件。
  • 通过一个简单的Python脚本实现平行文章的对齐。

语言

  • 现代标准阿拉伯语 (MSA)
  • 突尼斯阿拉伯语

任务类别

  • 文本生成

标签

  • 法律

来源

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作