Relations in Digital Humanities Dataset

github2021-10-28 更新2024-05-31 收录

下载链接：

https://github.com/cicling2018-dhdata/dh-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于评估语言模型的四个数据集，分别关于《冰与火之歌》（GRR Martin）和《哈利波特》（JK Rowling）两部作品。数据集主要包含类比和非匹配任务类型的测试数据。

This dataset comprises four distinct datasets designed for the evaluation of language models, focusing on two literary works: 'A Song of Ice and Fire' by GRR Martin and 'Harry Potter' by JK Rowling. The datasets primarily include test data for analogy and non-matching task types.

创建时间：

2018-01-12

原始信息汇总

数据集概述

数据集内容

4个数据集，分别针对《冰与火之歌》（GRR Martin）和《哈利波特》（JK Rowling）系列书籍，用于评估语言模型。
数据集包含大量类比和不匹配任务。

数据集文件

datasets/questions_soiaf_analogies.txt: 《冰与火之歌》类比关系测试数据。
datasets/questions_soiaf_doesn_match.txt: 《冰与火之歌》不匹配任务测试数据。
datasets/questions_hp_analogies.txt: 《哈利波特》类比关系测试数据。
datasets/questions_hp_doesn_match.txt: 《哈利波特》不匹配任务测试数据。
新增: 4个n-gram数据集，文件名包含_ngram。

数据集扩展与修改

可通过编辑源文件hp_analogies.txt, hp_does_not_match.txt, soiaf_analogies.txt, soiaf_does_not_match.txt或相应的_ngram数据集来扩展或修改测试数据。
使用命令cd datasets && python create_questions.py重新生成数据集。

模型评估

需要语言模型来评估数据集，模型位于models文件夹。
提供了多种知名技术创建的词嵌入模型，如word2vec, GloVe, fastText, LexVec。
模型以asoif_开头的针对《冰与火之歌》前四本书，以hp_开头的针对完整的《哈利波特》系列。

评估执行

选择书籍系列（asoif或hp）和任务类型（类比或不匹配），使用相应脚本进行评估。
在config.py中可切换使用uni-gram或n-gram数据集。

新增数据集或模型

添加模型：放入models文件夹，并在config.py中添加至METHODS变量。
添加新数据集：将原始数据集放入datasets，使用create_questions.py生成questions文件，并在config.py中添加新数据集设置。

搜集汇总

数据集介绍

构建方式

Relations in Digital Humanities Dataset的构建基于两部著名文学作品《冰与火之歌》和《哈利·波特》的文本数据。数据集通过生成类比（analogy）和不匹配（doesn't match）任务来评估语言模型的表现。具体构建过程中，首先从原始文本中提取关键信息，随后通过脚本生成基于段落排列的评估数据集。用户可以通过修改源文件并运行`create_questions.py`脚本来扩展或修改数据集。

使用方法

使用Relations in Digital Humanities Dataset时，用户首先需选择要评估的书籍系列（《冰与火之歌》或《哈利·波特》）以及任务类型（类比或不匹配）。通过运行相应的评估脚本（如`analogies_evaluation.py`或`doesnt_match_evaluation.py`），用户可以获取模型在各类任务上的表现，包括任务数量、正确与错误解答的数量以及准确率。此外，用户可以通过修改`config.py`文件中的设置，切换到n-gram数据集进行评估。

背景与挑战

背景概述

Relations in Digital Humanities Dataset 是一个专注于数字人文学科中关系分析的数据集，旨在通过语言模型评估文学作品中的人物关系与情节发展。该数据集由研究团队基于《冰与火之歌》（A Song of Ice and Fire）和《哈利·波特》（Harry Potter）两部经典文学作品构建，主要包含类比（analogy）和不匹配（doesn't match）两类任务。其核心研究问题在于如何通过词嵌入技术（如word2vec、GloVe等）捕捉文学作品中复杂的人物关系与情节逻辑，从而推动数字人文学科中文本分析与语义理解的发展。该数据集为相关领域的研究者提供了一个标准化的评估框架，促进了语言模型在文学分析中的应用。

当前挑战

该数据集在构建与应用过程中面临多重挑战。首先，文学作品中的人物关系与情节逻辑具有高度复杂性和多样性，如何通过词嵌入技术准确捕捉这些关系是一个核心难题。其次，数据集的构建依赖于对原始文本的深度处理与标注，这需要大量的人工干预与领域知识，增加了数据集的构建难度。此外，评估语言模型在文学分析中的表现时，如何设计合理的任务（如类比与不匹配任务）以全面反映模型的性能，也是一个重要的挑战。最后，数据集的扩展性与灵活性要求研究者能够快速适应新的文学作品与任务类型，这对数据集的架构设计提出了更高的要求。

常用场景

经典使用场景

在数字人文领域，Relations in Digital Humanities Dataset 主要用于评估语言模型在处理文学文本中的语义关系时的表现。该数据集通过提供《冰与火之歌》和《哈利·波特》系列书籍的类比和“不匹配”任务，帮助研究者测试模型在捕捉复杂人物关系和情节发展方面的能力。这种评估方式不仅适用于传统的词向量模型，如Word2Vec和GloVe，还可以扩展到更复杂的n-gram模型。

解决学术问题

该数据集解决了数字人文研究中语言模型在文学文本分析中的语义理解问题。通过提供丰富的类比和“不匹配”任务，研究者能够评估模型在捕捉文本中隐含的语义关系时的准确性。这对于提升模型在文学分析、人物关系推理等任务中的表现具有重要意义，同时也为语言模型在文学领域的应用提供了新的研究方向。

实际应用

在实际应用中，Relations in Digital Humanities Dataset 可用于文学作品的自动分析和解读。例如，出版商可以利用该数据集训练的语言模型来自动生成书籍的摘要或分析人物关系网络。此外，教育机构也可以利用该数据集开发教学工具，帮助学生更好地理解文学作品中的复杂情节和人物关系。

数据集最近研究