NotreDameDeParis-FR

Hugging Face2026-01-18 更新2026-01-19 收录

下载链接：

https://huggingface.co/datasets/Jaymerry/NotreDameDeParis-FR

下载链接

链接失效反馈

官方服务：

资源简介：

VictorHugo-Structured (FR) 是一个结构化的文学数据集，源自法国公共领域小说维克多·雨果的《巴黎圣母院》(1831)。该数据集提供章节级别的记录，包含原始文本、机器生成的摘要、关键词和角色提及。数据集旨在用于自然语言处理研究、数字人文和大型语言模型的实验。数据来源于古登堡计划，注释由本地LLM生成。原始文本属于公共领域，注释和数据集结构采用CC0-1.0许可证发布。

创建时间：

2026-01-08

原始信息汇总

数据集概述

数据集名称

VictorHugo-Structured (FR) — Notre-Dame de Paris

数据集描述

这是一个结构化的文学数据集，源自法国公共领域小说《巴黎圣母院》（1831年，作者维克多·雨果）。该数据集提供章节级别的记录，包含机器生成的摘要、关键词和角色提及，同时完整保留了原始文本。数据集旨在用于自然语言处理研究、数字人文科学以及基于公共领域文学的大语言模型实验。

语言

法语 (fr)

数据集结构

每条记录对应一个章节。

主要字段

text: 完整的原始章节文本（公共领域）
summary: 大语言模型生成的章节摘要
keywords: 提取的主题关键词
characters: 章节中提及的角色
book_number, book_title: 书籍级别的结构（如“Livre Premier”等）
chapter_number, chapter_title, chapter_roman
chapter_id: 稳定的唯一标识符
元数据字段（来源、许可证、版本、字符计数）

源数据

作品: 《巴黎圣母院》
作者: 维克多·雨果
首次出版: 1831年
来源: Project Gutenberg (电子书 #19657)
URL: https://www.gutenberg.org/ebooks/19657
处理说明: 非叙事部分（前言、注释、许可证文本）已在处理过程中被排除。

标注信息

以下字段是使用本地大语言模型通过LM Studio机器生成的：

summary
keywords
characters 标注以章节为范围，不引入原始文本之外的信息。

预期用途

自然语言处理实验（摘要生成、关键词提取、命名实体识别）
数字人文科学研究
基于结构化文学数据的大语言模型评估
使用公共领域文本的检索增强生成流程
教育与研究目的

非预期用途

声称对标注内容拥有人类作者身份
将机器生成的摘要曲解为原创的文学分析
对数据集进行专有再许可

许可信息

文本内容

《巴黎圣母院》属于公共领域。
文本源自Project Gutenberg。
不暗示Project Gutenberg的认可。

标注与数据集结构

所有标注均为机器生成。
数据集结构和标注根据CC0-1.0许可证发布。

伦理考量

不包含与在世个人相关的个人数据
未故意添加敏感或有害内容
机器生成的标注可能包含不准确之处

引用

VictorHugo-Structured (FR) — Notre-Dame de Paris. 源自维克多·雨果（1831年），Project Gutenberg电子书 #19657。标注通过本地大语言模型机器生成。

搜集汇总

数据集介绍

构建方式

在文学计算领域，将经典文本转化为结构化数据是推动数字人文研究的关键步骤。NotreDameDeParis-FR数据集以维克多·雨果的公共领域小说《巴黎圣母院》为蓝本，通过系统化的处理流程构建而成。原始文本取自古登堡计划提供的电子版本，经过清洗后剔除了非叙事性内容，确保数据纯净性。随后，利用本地大型语言模型对每个章节进行自动化标注，生成了摘要、关键词及角色提及信息，同时完整保留了原文的章节结构与元数据，形成了一套层次分明、机器可读的文学数据集。

使用方法

对于研究人员而言，该数据集为多种学术探索提供了便利。在自然语言处理方面，它可用于文本摘要生成、关键词抽取、命名实体识别等任务的模型训练与评估。数字人文领域的研究者能够借助其结构化特征，进行文学风格分析、叙事结构挖掘或角色网络构建。此外，数据集也适用于检索增强生成管道的构建，以及大型语言模型在公共领域文学文本上的性能测试。使用时需注意区分原始文本与机器生成内容，并遵守相应的许可协议。

背景与挑战

背景概述

在数字人文与自然语言处理领域，对经典文学作品进行结构化处理已成为深化文本分析的关键途径。NotreDameDeParis-FR数据集由研究团队于近期创建，其核心目标是将维克多·雨果的公共领域小说《巴黎圣母院》转化为适用于现代计算研究的结构化资源。该数据集不仅完整保留了原始章节文本，还通过本地大语言模型自动生成了摘要、关键词及角色提及标注，旨在支持文本摘要、实体识别等NLP任务，并为数字人文研究提供高质量的实验数据。这一举措推动了公共领域文学资源在智能技术时代的可访问性与再利用价值。

当前挑战

该数据集致力于解决文学文本的结构化分析与摘要生成问题，其挑战在于如何准确捕捉长篇叙事中的复杂情节与主题脉络，同时保持摘要的连贯性与忠实度。在构建过程中，面临的主要挑战包括：机器生成的摘要与关键词可能存在语义偏差或遗漏，影响后续研究的可靠性；原始文本中的古老法语表达与历史语境可能对自动处理模型构成理解障碍；此外，在排除非叙事性内容（如前言、注释）时，需确保章节结构的完整性不受破坏，这对数据清洗流程提出了较高要求。

常用场景

经典使用场景

在自然语言处理与数字人文领域，NotreDameDeParis-FR数据集为经典文学文本的结构化分析提供了范例。该数据集通过章节级别的原始文本与机器生成的摘要、关键词及角色提及信息，支持对《巴黎圣母院》的细粒度探索。研究者可借此进行文本摘要模型的训练与评估，或深入分析小说叙事结构与主题演变，从而推动文学计算化研究的发展。

解决学术问题

该数据集有效应对了传统文学研究中手动标注耗时耗力、难以规模化的挑战。通过提供机器生成的结构化注释，它促进了自动摘要、关键词提取和命名实体识别等自然语言处理任务的基准构建。在数字人文领域，数据集使得大规模文本分析成为可能，助力学者量化研究叙事模式、角色网络与主题分布，为文学研究注入计算范式。

实际应用

在实际应用中，NotreDameDeParis-FR数据集可作为检索增强生成（RAG）系统的优质语料库，支撑基于经典文学的问答与内容生成服务。教育机构可利用其结构化内容设计互动式文学课程，帮助学生理解文本脉络。同时，该数据集也为开发多语言文学处理工具提供了法语文本资源，促进跨文化数字人文项目的开展。

数据集最近研究