A Dataset for Relations in Digital Humanities

github2020-03-18 更新2024-05-31 收录

下载链接：

https://github.com/gwohlgen/digitalhumanities_dataset_and_eval

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于评估语言模型的四个数据集，分别针对《冰与火之歌》（GRR Martin）和《哈利波特》（JK Rowling）系列书籍。数据集主要包含类比和非匹配类型的任务数据。

This dataset comprises four distinct datasets designed for the evaluation of language models, specifically tailored to the 'A Song of Ice and Fire' series by GRR Martin and the 'Harry Potter' series by JK Rowling. The datasets primarily include tasks of analogy and non-matching types.

创建时间：

2017-09-22

原始信息汇总

数据集概述

数据集内容

4个数据集：分别针对《冰与火之歌》（GRR Martin）和《哈利波特》（JK Rowling）两部作品，每个作品包含以下两种类型的测试数据：
- 类比关系测试数据：
  - datasets/questions_soiaf_analogies.txt
  - datasets/questions_hp_analogies.txt
- 不匹配任务测试数据：
  - datasets/questions_soiaf_doesn_match.txt
  - datasets/questions_hp_doesn_match.txt
新增4个n-gram数据集：与上述4个数据集对应，文件名包含_ngram。

数据集扩展与修改

原始数据源文件位于datasets目录下，包括：
- hp_analogies.txt
- hp_does_not_match.txt
- soiaf_analogies.txt
- soiaf_does_not_match.txt
通过运行python create_questions.py可以重新生成测试数据集。

数据集使用

用户可以选择评估的书系（asoif或hp）和任务类型（类比或不匹配），使用提供的脚本进行评估：
- 类比任务：
  - python analogies_evaluation.py asoif
  - python analogies_evaluation.py hp
- 不匹配任务：
  - python doesnt_match_evaluation.py hp
  - python doesnt_match_evaluation.py asoif

数据集评估

评估结果包括任务数量、正确与错误解决的数量及准确率（accuracy）。

数据集与模型扩展

添加新模型：将模型放入models文件夹，并在config.py中更新METHODS变量。
添加新数据集：将原始数据集放入datasets文件夹，使用create_questions.py生成questions文件，并在config.py中添加新数据集的配置。

搜集汇总

数据集介绍

构建方式

该数据集针对数字人文领域的语言模型评估而构建，包含四个数据子集，分别针对《冰与火之歌》和《哈利·波特》系列书籍。数据集的构建采用了类比和不符合任务类型，通过编辑源文件并运行脚本生成基于章节的排列，以创建评估数据集。

特点

数据集的特点在于其针对特定文学作品构建的类比和不符合任务测试数据，涵盖了单字和n-gram数据类型。数据集易于扩展，且提供了不同预训练的词向量模型，如word2vec、GloVe、fastText和LexVec，以供评估使用。

使用方法

使用该数据集时，用户需选择书籍系列和任务类型，调用相应的评估脚本。在配置文件中可以切换使用单字或n-gram数据集。评估结果将输出各种计数和正确率百分比，便于对语言模型进行性能评估。

背景与挑战

背景概述

A Dataset for Relations in Digital Humanities数据集，创建于2016年，由Wohlgenannt、Chernyak和Ilvovsky等研究人员开发。该数据集的核心研究问题是通过词向量工具从文学文本中提取社会网络关系，特别是针对《冰与火之歌》和《哈利·波特》这两部作品。该数据集的构建旨在推动数字人文学科的发展，并在相关领域产生了重要影响，为研究文学作品中的关系和人物互动提供了有力的工具。

当前挑战

该数据集在构建和应用过程中面临的挑战主要包括：1) 如何准确捕捉并表达文学作品中的复杂关系；2) 处理大规模文本数据时，如何保持词向量模型的效率和准确性；3) 在遵循版权法的前提下，如何合理使用和保护原著文本。此外，随着n-gram数据集的引入，如何有效整合和利用这些数据以提高模型性能也是一个挑战。

常用场景

经典使用场景

该数据集在数字人文学科的领域中，被广泛用于评估语言模型在理解文学作品中的类比和不符合任务的能力。通过为《冰与火之歌》和《哈利波特》系列书籍提供类比和不符合任务的测试数据，研究人员能够有效地测试和比较不同语言模型在这两个文本集合上的表现，从而推动了对词向量模型在文学文本分析中应用的研究。

衍生相关工作

该数据集衍生出了多项相关工作，包括对其他文学作品进行类似的数据集构建，以及在词嵌入模型基础上发展出的新的文学分析方法和工具，进一步扩展了数字人文学科的研究领域。

数据集最近研究