Corpus of Lake District Writing

github2023-12-04 更新2024-05-31 收录

下载链接：

https://github.com/UCREL/LakeDistrictCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含1622至1900年间手动数字化和注释的80篇文本，总计超过150万个词令牌。这些文本代表了不同类型和作者的作品，共同构成了17世纪早期至20世纪早期关于英国湖区写作的一个代表性样本。

This dataset contains 80 manually digitized and annotated texts spanning the years 1622 to 1900, with a total of over 1.5 million word tokens. These texts represent works of diverse genres and authors, and collectively form a representative corpus of writings about the English Lake District from the early 17th century to the early 20th century.

创建时间：

2017-03-08

原始信息汇总

Corpus of Lake District Writing, 1622-1900

数据集概述

文本数量: 80篇
文本年代: 1622至1900年
总词数: 超过150万词
文本类型: 包含多种不同类型和作者的作品
数据集目的: 代表17世纪早期至20世纪早期关于英格兰湖区的写作样本

文件结构

转录指南: 包含在_transcription_guidelines文件夹中
转录文件: 80篇转录文件位于_LD80_transcribed
地理解析文件: 自动地理解析文件位于_LD80_geoparsed
黄金标准子集: 包含28篇代表性文本，约24.2万词，位于_gold_standard
元数据: 描述全数据集的元数据文件位于_LD80_metadata

版权信息

许可证: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License

引用信息

参考文献: Rayson, P., Reinhold, A., Butler, J., Donaldson, C. E., Gregory, I. N., & Taylor, J. E. (2017). A deeply annotated testbed for geographical text analysis: The Corpus of Lake District Writing. In GeoHumanities17: 1st ACM SIGSPATIAL Workshop on Geospatial Humanities: 25th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems. Association for Computing Machinery (ACM). DOI: 10.1145/3149858.3149865

搜集汇总

数据集介绍

构建方式

《湖区写作语料库》（Corpus of Lake District Writing, CLDW）的构建基于1622年至1900年间的手工数字化和注释文本，共包含80篇文本，涵盖超过150万个词符。这些文本选自不同体裁和作者，代表了英国湖区在这一时期的文学创作。语料库的转录遵循严格的XML标签和符号规范，确保文本的准确性和一致性。此外，语料库还包含一个经过人工校验的黄金标准子集，涵盖28篇代表性文本，用于地名实体的标记和分析。

使用方法

使用该数据集时，研究人员可通过XML标签和符号规范访问转录文本，利用黄金标准子集进行地名实体的验证和分析。自动地理解析文件可用于地理信息系统的集成研究。此外，数据集附带的元数据文件提供了每篇文本的详细信息，便于用户快速定位所需内容。该数据集适用于文学研究、地理文本分析及数字人文领域的跨学科研究。

背景与挑战

背景概述

《湖区写作语料库》（Corpus of Lake District Writing, CLDW）是由欧洲研究理事会（ERC）资助的“空间人文学：文本、地理信息系统与地点”研究项目于2012年至2016年间创建的。该数据集涵盖了1622年至1900年间关于英国湖区（Lake District）的80部手写文本，总计超过150万词。这些文本由多位研究人员手工数字化并标注，涵盖了多种文体和作者，旨在为地理文本分析提供一个深度标注的测试平台。该语料库的创建不仅为文学地理信息系统（GIS）研究提供了重要数据支持，还推动了湖区文学与地理空间关系的跨学科研究。

当前挑战

《湖区写作语料库》的构建面临多重挑战。首先，文本的数字化与标注需要高度精确，尤其是地名实体的识别与标记，这对人工标注的准确性和一致性提出了极高要求。其次，语料库涵盖的时间跨度长达近300年，文本的语言风格、拼写规范和地名使用方式存在显著差异，增加了数据处理的复杂性。此外，自动地理解析（geoparsing）技术的应用虽提高了效率，但其结果的准确性仍需通过人工校对的金标准子集进行验证。这些挑战不仅反映了地理文本分析的技术难点，也凸显了跨学科研究中数据整合与标准化的复杂性。

常用场景

经典使用场景

Corpus of Lake District Writing (CLDW) 数据集在文学地理信息系统（GIS）研究中具有重要应用。该数据集通过提供1622年至1900年间关于英国湖区的大量文本，为研究者提供了一个丰富的历史文献资源。这些文本涵盖了多种文体和作者，能够支持对湖区文学景观的深入分析，尤其是在地理空间与文学表达的交汇点上。

解决学术问题

CLDW 数据集解决了文学地理学中的关键问题，特别是如何通过文本分析揭示地理空间与文学创作之间的关系。通过手动标注和地理解析，该数据集为研究者提供了一个标准化的工具，用于分析文本中的地名实体及其空间分布。这不仅有助于理解历史文本中的地理描述，还为文学地理信息系统的构建提供了基础数据。

实际应用

在实际应用中，CLDW 数据集被广泛用于文学地理学、历史地理学以及数字人文领域的研究。例如，研究者可以利用该数据集构建湖区文学景观的深度地图，揭示不同历史时期对湖区地理的文学表达。此外，该数据集还为教育领域提供了丰富的教学资源，帮助学生理解文学与地理的互动关系。

数据集最近研究