AMR-KELEG/PTCC
收藏Hugging Face2024-01-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AMR-KELEG/PTCC
下载链接
链接失效反馈官方服务:
资源简介:
Parallel Tunisian Constitution Corpus (PTCC) 数据集包含149篇文章,使用现代标准阿拉伯语和突尼斯阿拉伯语编写。该数据集是通过将宪法PDF文件转换为文本文件,并使用Python脚本对齐平行文章来创建的。数据集主要用于文本生成任务,涉及法律领域,语言为阿拉伯语。
提供机构:
AMR-KELEG
原始信息汇总
数据集概述
数据集名称
- Parallel Tunisian Constitution Corpus (PTCC)
数据集描述
- 该数据集包含149篇文章,用现代标准阿拉伯语和突尼斯阿拉伯语编写。
数据处理
- 使用Tesseract将宪法的PDF文件转换为文本文件。
- 通过一个简单的Python脚本实现平行文章的对齐。
语言
- 现代标准阿拉伯语 (MSA)
- 突尼斯阿拉伯语
任务类别
- 文本生成
标签
- 法律



