Corpus of Lake District Writing
收藏github2023-12-04 更新2024-05-31 收录
下载链接:
https://github.com/UCREL/LakeDistrictCorpus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含1622至1900年间手动数字化和注释的80篇文本,总计超过150万个词令牌。这些文本代表了不同类型和作者的作品,共同构成了17世纪早期至20世纪早期关于英国湖区写作的一个代表性样本。
This dataset contains 80 manually digitized and annotated texts spanning the years 1622 to 1900, with a total of over 1.5 million word tokens. These texts represent works of diverse genres and authors, and collectively form a representative corpus of writings about the English Lake District from the early 17th century to the early 20th century.
创建时间:
2017-03-08
原始信息汇总
Corpus of Lake District Writing, 1622-1900
数据集概述
- 文本数量: 80篇
- 文本年代: 1622至1900年
- 总词数: 超过150万词
- 文本类型: 包含多种不同类型和作者的作品
- 数据集目的: 代表17世纪早期至20世纪早期关于英格兰湖区的写作样本
文件结构
- 转录指南: 包含在
_transcription_guidelines文件夹中 - 转录文件: 80篇转录文件位于
_LD80_transcribed - 地理解析文件: 自动地理解析文件位于
_LD80_geoparsed - 黄金标准子集: 包含28篇代表性文本,约24.2万词,位于
_gold_standard - 元数据: 描述全数据集的元数据文件位于
_LD80_metadata
版权信息
引用信息
- 参考文献: Rayson, P., Reinhold, A., Butler, J., Donaldson, C. E., Gregory, I. N., & Taylor, J. E. (2017). A deeply annotated testbed for geographical text analysis: The Corpus of Lake District Writing. In GeoHumanities17: 1st ACM SIGSPATIAL Workshop on Geospatial Humanities: 25th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems. Association for Computing Machinery (ACM). DOI: 10.1145/3149858.3149865
搜集汇总
数据集介绍

构建方式
《湖区写作语料库》(Corpus of Lake District Writing, CLDW)的构建基于1622年至1900年间的手工数字化和注释文本,共包含80篇文本,涵盖超过150万个词符。这些文本选自不同体裁和作者,代表了英国湖区在这一时期的文学创作。语料库的转录遵循严格的XML标签和符号规范,确保文本的准确性和一致性。此外,语料库还包含一个经过人工校验的黄金标准子集,涵盖28篇代表性文本,用于地名实体的标记和分析。
使用方法
使用该数据集时,研究人员可通过XML标签和符号规范访问转录文本,利用黄金标准子集进行地名实体的验证和分析。自动地理解析文件可用于地理信息系统的集成研究。此外,数据集附带的元数据文件提供了每篇文本的详细信息,便于用户快速定位所需内容。该数据集适用于文学研究、地理文本分析及数字人文领域的跨学科研究。
背景与挑战
背景概述
《湖区写作语料库》(Corpus of Lake District Writing, CLDW)是由欧洲研究理事会(ERC)资助的“空间人文学:文本、地理信息系统与地点”研究项目于2012年至2016年间创建的。该数据集涵盖了1622年至1900年间关于英国湖区(Lake District)的80部手写文本,总计超过150万词。这些文本由多位研究人员手工数字化并标注,涵盖了多种文体和作者,旨在为地理文本分析提供一个深度标注的测试平台。该语料库的创建不仅为文学地理信息系统(GIS)研究提供了重要数据支持,还推动了湖区文学与地理空间关系的跨学科研究。
当前挑战
《湖区写作语料库》的构建面临多重挑战。首先,文本的数字化与标注需要高度精确,尤其是地名实体的识别与标记,这对人工标注的准确性和一致性提出了极高要求。其次,语料库涵盖的时间跨度长达近300年,文本的语言风格、拼写规范和地名使用方式存在显著差异,增加了数据处理的复杂性。此外,自动地理解析(geoparsing)技术的应用虽提高了效率,但其结果的准确性仍需通过人工校对的金标准子集进行验证。这些挑战不仅反映了地理文本分析的技术难点,也凸显了跨学科研究中数据整合与标准化的复杂性。
常用场景
经典使用场景
Corpus of Lake District Writing (CLDW) 数据集在文学地理信息系统(GIS)研究中具有重要应用。该数据集通过提供1622年至1900年间关于英国湖区的大量文本,为研究者提供了一个丰富的历史文献资源。这些文本涵盖了多种文体和作者,能够支持对湖区文学景观的深入分析,尤其是在地理空间与文学表达的交汇点上。
解决学术问题
CLDW 数据集解决了文学地理学中的关键问题,特别是如何通过文本分析揭示地理空间与文学创作之间的关系。通过手动标注和地理解析,该数据集为研究者提供了一个标准化的工具,用于分析文本中的地名实体及其空间分布。这不仅有助于理解历史文本中的地理描述,还为文学地理信息系统的构建提供了基础数据。
实际应用
在实际应用中,CLDW 数据集被广泛用于文学地理学、历史地理学以及数字人文领域的研究。例如,研究者可以利用该数据集构建湖区文学景观的深度地图,揭示不同历史时期对湖区地理的文学表达。此外,该数据集还为教育领域提供了丰富的教学资源,帮助学生理解文学与地理的互动关系。
数据集最近研究
最新研究方向
近年来,Lake District Writing语料库(CLDW)在数字人文和地理信息系统(GIS)领域的研究中展现出重要价值。该数据集涵盖了1622年至1900年间关于英国湖区的大量文本,通过手动数字化和标注,提供了丰富的地理信息标注。研究者们利用该数据集探索了文学地理学的深度应用,特别是在地理文本分析和空间人文研究方面。通过自动地理解析和手工标注的黄金标准子集,CLDW为地理实体识别和空间分析提供了高质量的基准数据。此外,该数据集还被广泛应用于历史地理学、文学地理信息系统(Lit-GIS)以及文化遗产保护等领域,推动了地理信息科学与人文研究的深度融合。
以上内容由遇见数据集搜集并总结生成



