RafaelUI/literary-text-pairs

Name: RafaelUI/literary-text-pairs
Creator: RafaelUI
Published: 2026-04-25 05:28:05
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/RafaelUI/literary-text-pairs

下载链接

链接失效反馈

官方服务：

资源简介：

literary-text-pairs是一个用于训练多语言文学文本语义搜索模型的数据集，包含7种语言(英语、俄语、法语、德语、西班牙语、意大利语、葡萄牙语)的文学文本对。每行数据包含：语言代码、文学文本段落(最多256个词)、描述段落的短查询(5-10个单词)以及段落的重述。数据集共有133,943对文本，来源于古登堡计划、RusLit语料库、OPUS Books和Taiga语料库。

literary-text-pairs is a training dataset for multilingual semantic search models focused on literary texts. It contains text pairs in 7 languages (English, Russian, French, German, Spanish, Italian, Portuguese). Each row includes: language code, a literary text passage (up to 256 tokens), a short search phrase describing the passage (5-10 words), and a paraphrase of the passage. The dataset contains 133,943 pairs sourced from Project Gutenberg, RusLit corpus, OPUS Books, and Taiga corpus.

提供机构：

RafaelUI

搜集汇总

数据集介绍

构建方式

该数据集的构建源于对多语言文学文本语义搜索模型的训练需求，通过整合Project Gutenberg、RusLit语料库、OPUS Books及Taiga语料库等多元文学资源，精心筛选并生成了133,943条文本对。每条数据包含语言代码、文学片段（锚点）、精简语义查询短语及其释义，覆盖英语、俄语、法语、德语、西班牙语、意大利语和葡萄牙语七种语言，旨在为文学领域语义搜索任务提供高质量的训练基础。

特点

该数据集突出特点在于其跨语言文学文本的专属适配性，每条文本对中的锚点片段限制在256个token以内，语义短语以5至10词的简洁查询形式浓缩段落核心，而释义则以不同措辞复现原意。这种结构不仅促进了模型对文学语言微妙表达的深度理解，还通过多语言覆盖增强了跨文化检索能力，使其在文学文本语义匹配与搜索场景中表现出色。

使用方法

借助该数据集，可将其直接用于微调基于句子变换器（sentence-transformers）架构的语义搜索模型。使用时需按行读取JSON或CSV格式数据，将锚点作为输入，语义短语作为正例标签，通过对比学习或三元组损失优化模型，使其习得文学文本与查询间的语义关联。研究者和开发者可依据Apache 2.0许可自由扩展，适用于构建小说检索、文学阅读辅助系统等应用。

背景与挑战

背景概述

literary-text-pairs数据集由RafaelUI研究团队创建，旨在为文学文本的多语言语义搜索模型提供训练支持。该数据集于近期发布，涵盖英语、俄语、法语、德语、西班牙语、意大利语和葡萄牙语七种语言，包含133,943对文本样本，来源包括Project Gutenberg、RusLit语料库、OPUS Books和Taiga语料库等经典文学资源。其核心研究问题在于如何通过细粒度的语义匹配，提升文学领域跨语言检索的准确性与鲁棒性。该数据集为文学文本的语义表示学习提供了高质量的训练材料，推动了自然语言处理在文化传承与数字人文中的应用，对多语言语义搜索和句子嵌入模型的改进具有重要影响。

当前挑战

该数据集所解决的领域问题集中于文学文本的语义检索挑战：文学语言富含隐喻、修辞和语境依赖，常规语义搜索模型难以捕捉其深层含义，且多语言场景下跨文化表达差异进一步加剧了匹配难度。在构建过程中，团队面临文本对齐的复杂性，需从异构语料库中提取并确保来源的多样性与版权合规性；同时，生成精确的语义查询与 paraphrases 需要人工校验与自然语言处理技术的结合，以维持短描述与原文间的高语义一致性，避免噪声对模型训练的干扰。

常用场景

经典使用场景

在自然语言处理与数字人文学科的交汇处，literary-text-pairs数据集为多语言文学文本的语义检索与句子表征学习提供了基石。该数据集包含约13.4万条由锚点段落、短查询描述和同义改写构成的三元组，覆盖英、俄、法、德等七种语言，源自古登堡计划、RusLit语料库等经典文学资源。其核心设计理念在于捕捉文学文本中隐式语义关联——例如，将一段关于‘主人公在暮色中独步林间’的段落与‘黄昏树林里的孤独漫步’这一查询短语配对，从而训练模型理解文学性表达的深层内涵，而非仅停留于字面匹配。这种精细化的标注范式使得该数据集成为微调多语言句子嵌入模型（如literary-minilm）的首选，推动了跨语言文学语义对齐与检索的边界。

实际应用

在实际应用层面，literary-text-pairs赋能了多款面向文学爱好者的智能工具与数字图书馆系统。基于该数据集微调的语义搜索模型能够支持用户通过自然语言短语（如‘骑士与龙对话的片段’）在数百万文学作品中精确定位对应段落，打破了传统关键词检索的局限性；尤其适用于古登堡计划等大规模电子书存储库，极大提升了文献发现效率。在文学教学领域，教师可利用其同义改写功能生成多样化表述的示例，辅助学生理解经典文本中的多义性表达。此外，该数据集已被整合进推荐系统，通过分析用户检索历史中的语义偏好，精准推荐具有相似主题或写作风格的文学著作，从而深化了个性化阅读体验的层次。

衍生相关工作

literary-text-pairs作为核心训练资源，催生了多部具有里程碑意义的研究工作。最直接的衍生成果是RafaelUI/literary-minilm模型——一个专为文学语义搜索优化的多语言句子编码器，在跨语言文学段落检索任务上展现了超越通用模型的精妙表现。后续研究受此启发，开始探索如何将同类标注范式扩展到古汉语、梵文等低资源文学语系，形成了文学文本表征学习的微调方法论体系。同时，该数据集还激发了对文学文本中‘叙事视角’与‘情感弧线’进行语义建模的尝试，衍生出如literary-plot-sim（聚焦情节相似度计算）等子领域数据集。这些工作共同编织出一张日益稠密的文学计算研究网络，持续解码着人类叙事智慧的深层结构。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集