five

DECM Machine Ready Corpus

收藏
DataCite Commons2022-12-08 更新2024-07-29 收录
下载链接:
https://figshare.com/articles/dataset/DECM_Machine_Ready_Corpus/12048729/3
下载链接
链接失效反馈
官方服务:
资源简介:
<i>The DECM Corpus </i>is a digital corpus of the texts of <i>Relaciones Geográficas</i> <i>de Nueva España </i>(the Geographic Reports of New Spain) with different versions, including a machine ready version, a gold standard annotated dataset, and an automatically annotated version ready for text mining and machine learning experiments.This is the DECM Machine Ready Corpus. This version includes text only files (.txt) containing each of the 10 volumes originally edited by Rene Acuña, the 2 volumes edited by Mercedes de la Garza, the <i>Suma de Visita</i> edited by Del Paso y Troncoso, a file with the original text of the Crown mandate (<i>Instrucción</i>), and metadata for this collection. This version contains only the original text of each of the RGs as transcribed by the scholars, excluding any editorial note, commentary, or historical work. This can be therefore used directly for corpus linguistics analyses, visualisations, etc.

DECM语料库(DECM Corpus)是收录《新西班牙地理报告》(Relaciones Geográficas de Nueva España)文本的数字化语料库,包含三类变体:机器学习就绪版、金标准标注数据集,以及可直接用于文本挖掘与机器学习实验的自动标注版。 本数据集即为DECM机器学习就绪版语料库。 该版本仅包含纯文本文件(.txt),涵盖勒内·阿库尼亚(Rene Acuña)原版编纂的10卷文本、梅塞德斯·德拉加尔萨(Mercedes de la Garza)编辑的2卷文本、德尔·帕索·特龙科索(Del Paso y Troncoso)编纂的《视察概要》(Suma de Visita)、收录王室训令(Instrucción)原文的文件,以及本数据集的元数据。 该版本仅保留学者转录的各篇《新西班牙地理报告》原文,不含任何编辑注释、评述或史学类附加内容。 因此可直接用于语料库语言学分析、可视化等研究工作。
提供机构:
figshare
创建时间:
2022-12-08
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作