memo-canonical-novels
收藏Hugging Face2024-10-02 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/chcaa/memo-canonical-novels
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是由Jens Bjerring-Hansen和Philip Diderichsen等人创建的,并在2023年6月发布。这里提供的是一个更易访问的注释版本。数据集包含多个特征,如文件名、作者ID、出版日期、标题等。数据集分为训练集,包含839个样本。数据集的语言包括丹麦语和挪威语。数据集的标签包括CE Canon、LEX Canon和E Canon,分别指文化/教育经典、词典经典和扩展经典。数据集还经过了空白清理处理。
提供机构:
Center for Humanities Computing Aarhus
创建时间:
2024-10-02
原始信息汇总
数据集概述
数据集信息
- 名称: The Canon annotated MeMo corpus
- 语言:
- 丹麦语 (da)
- 挪威语 (no)
- 许可证: CC BY 4.0
- 标签:
- canon
- historical
- 大小类别: n<1K
数据集特征
- FILENAME: 文件名 (string)
- AUTH_ID: 作者ID (int64)
- AUTH_FIRST: 作者名 (string)
- PUBL_DATE: 出版日期 (int64)
- TITLE_MODERN: 现代标题 (string)
- AUTH_LAST_MODERN: 现代作者姓氏 (string)
- AUTH_LAST: 作者姓氏 (string)
- TITLE: 标题 (string)
- AUTH_GENDER: 作者性别 (string)
- FILENAME.1: 文件名 (string)
- FIRSTNAME: 名 (string)
- SURNAME: 姓氏 (string)
- PSEUDONYM: 笔名 (string)
- NATIONALITY: 国籍 (string)
- TITLE.1: 标题 (string)
- SUBTITLE: 副标题 (string)
- VOLUME: 卷数 (float64)
- YEAR: 年份 (int64)
- PAGES: 页数 (float64)
- ILLUSTRATIONS: 插图 (string)
- TYPEFACE: 字体 (string)
- PUBLISHER: 出版商 (string)
- PRICE: 价格 (float64)
- SOURCE: 来源 (string)
- NOTES: 备注 (string)
- FILEPATH: 文件路径 (string)
- FILEFORMAT: 文件格式 (string)
- HISTORICAL: 历史性 (float64)
- PERIOD: 时期 (string)
- PERIOD_NOTES: 时期备注 (string)
- NOVEL_START: 小说开始 (float64)
- NOVEL_END: 小说结束 (float64)
- SERIALNO: 序列号 (float64)
- CATEGORY: 类别 (string)
- E_CANON: 扩展文集 (int64)
- CE_CANON: 文化/教育文集 (int64)
- LEX_CANON: 词典文集 (int64)
- TEXT: 文本 (string)
数据集分割
- train:
- 样本数: 839
- 字节数: 28873459
数据集大小
- 下载大小: 17911990 字节
- 数据集大小: 28873459 字节
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
- data_files:
附加标签
- CE Canon: 文化/教育文集,指包含在文化文集或作者包含在教育文集中的小说。
- LEX Canon: 词典文集,指未包含在教育文集和文化文集但作者在小说和短篇小说列表中的小说。
- E Canon: 扩展文集,指包含在CE文集和/或LEX文集中的所有小说。
附加处理
- 空白清理
搜集汇总
数据集介绍

构建方式
memo-canonical-novels数据集基于MiMe-MeMo/Corpus-v1.1语料库构建,由Jens Bjerring-Hansen和Philip Diderichsen等人于2023年6月发布。该数据集通过进一步标注和清理,提供了更为易用的版本。数据来源包括丹麦现代文学突破时期(1870-1900年)的经典小说,涵盖了作者信息、出版细节、文本内容等多维度数据。构建过程中,特别注重了OCR数据的校正与文本格式的统一,确保了数据的准确性和一致性。
特点
该数据集的特点在于其丰富的元数据信息,涵盖了作者姓名、出版年份、书名、国籍、性别等多个维度,并特别标注了文化/教育经典(CE Canon)、词典经典(LEX Canon)和扩展经典(E Canon)等分类标签。此外,数据集还包含了文本的原始格式、出版细节(如价格、出版商、插图等)以及历史背景信息,为研究丹麦现代文学提供了全面的数据支持。其多语言支持(丹麦语和挪威语)进一步扩展了其应用范围。
使用方法
memo-canonical-novels数据集适用于文学研究、历史语言学、数字人文等领域的研究。用户可通过HuggingFace平台直接下载数据集,利用其提供的元数据和文本内容进行定量分析或定性研究。例如,研究者可以分析经典小说的文本特征、作者背景与作品影响力之间的关系,或探索不同经典分类标准下的文学演变规律。使用该数据集时,需引用原始语料库及相关研究论文,以确保学术规范性。
背景与挑战
背景概述
memo-canonical-novels数据集由Jens Bjerring-Hansen和Philip Diderichsen等人于2023年创建,旨在为研究丹麦文学经典提供更为便捷的注释版本。该数据集基于MiMe-MeMo/Corpus-v1.1语料库,涵盖了丹麦现代文学突破时期(1870-1900年)的经典小说,涉及作者、出版信息、文本内容等多维度数据。通过引入CE Canon、LEX Canon和E Canon等分类标准,该数据集为文学研究者提供了丰富的分析工具,助力于探讨文学作品的文化与教育价值及其在文学史上的地位。
当前挑战
memo-canonical-novels数据集在构建过程中面临多重挑战。首先,原始文本的OCR识别错误需要经过复杂的校正处理,以确保数据的准确性和可用性。其次,如何定义和分类‘经典’作品本身是一个复杂的学术问题,涉及文化、教育和语言学等多领域的交叉研究。此外,数据集中包含的历史文献信息可能存在不完整或模糊的情况,需通过多源数据验证和补充。这些挑战不仅考验了数据处理的技术能力,也对文学研究的理论框架提出了更高的要求。
常用场景
经典使用场景
在文学研究领域,memo-canonical-novels数据集为学者提供了一个详尽的丹麦现代突破时期(1870-1900)小说文本的注释版本。该数据集不仅包含了小说的原始文本,还提供了作者信息、出版细节、历史背景等多维度数据,使得研究者能够深入分析这一时期文学作品的文化、社会和历史背景。
解决学术问题
该数据集解决了文学研究中关于文本分类、作者身份识别以及文学作品历史地位评估的难题。通过提供详细的注释信息,研究者可以更准确地识别和分类不同时期、不同文化背景下的文学作品,进而探讨文学作品的传播与接受过程。
衍生相关工作
基于memo-canonical-novels数据集,学者们已经开展了多项经典研究,如《丹麦现代突破时期小说的文化地位研究》和《文学作品的历史影响力评估模型》。这些研究不仅深化了对丹麦现代文学的理解,还为其他语言和文化的文学研究提供了方法论上的参考。
以上内容由遇见数据集搜集并总结生成



