five

CatholicCorpus/catholiccorpus

收藏
Hugging Face2026-04-29 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/CatholicCorpus/catholiccorpus
下载链接
链接失效反馈
官方服务:
资源简介:
CatholicCorpus是一个开放访问、适合自然语言处理的语料库,涵盖了天主教2000年来的知识传统,从教父时期到20世纪。包含67,772个内容文件,16个集合,总计35.9 GB的数据。语料库包括多种格式的文本,如TEI XML、TXT、PDF等,涵盖了从拉丁文、希腊文到英文的多种语言。

CatholicCorpus is an open-access, NLP-ready corpus of Catholic texts spanning 2,000 years of the Catholic intellectual tradition — from the Church Fathers to the 20th century. It contains 67,772 content files across 16 collections, totaling 35.9 GB. The corpus includes texts in various formats such as TEI XML, TXT, and PDF, covering multiple languages including Latin, Greek, and English.
提供机构:
CatholicCorpus
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作