RafaelUI/literary-text-pairs
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/RafaelUI/literary-text-pairs
下载链接
链接失效反馈官方服务:
资源简介:
literary-text-pairs是一个用于训练多语言文学文本语义搜索模型的数据集,包含7种语言(英语、俄语、法语、德语、西班牙语、意大利语、葡萄牙语)的文学文本对。每行数据包含:语言代码、文学文本段落(最多256个词)、描述段落的短查询(5-10个单词)以及段落的重述。数据集共有133,943对文本,来源于古登堡计划、RusLit语料库、OPUS Books和Taiga语料库。
literary-text-pairs is a training dataset for multilingual semantic search models focused on literary texts. It contains text pairs in 7 languages (English, Russian, French, German, Spanish, Italian, Portuguese). Each row includes: language code, a literary text passage (up to 256 tokens), a short search phrase describing the passage (5-10 words), and a paraphrase of the passage. The dataset contains 133,943 pairs sourced from Project Gutenberg, RusLit corpus, OPUS Books, and Taiga corpus.
提供机构:
RafaelUI
搜集汇总
数据集介绍

构建方式
该数据集的构建源于对多语言文学文本语义搜索模型的训练需求,通过整合Project Gutenberg、RusLit语料库、OPUS Books及Taiga语料库等多元文学资源,精心筛选并生成了133,943条文本对。每条数据包含语言代码、文学片段(锚点)、精简语义查询短语及其释义,覆盖英语、俄语、法语、德语、西班牙语、意大利语和葡萄牙语七种语言,旨在为文学领域语义搜索任务提供高质量的训练基础。
特点
该数据集突出特点在于其跨语言文学文本的专属适配性,每条文本对中的锚点片段限制在256个token以内,语义短语以5至10词的简洁查询形式浓缩段落核心,而释义则以不同措辞复现原意。这种结构不仅促进了模型对文学语言微妙表达的深度理解,还通过多语言覆盖增强了跨文化检索能力,使其在文学文本语义匹配与搜索场景中表现出色。
使用方法
借助该数据集,可将其直接用于微调基于句子变换器(sentence-transformers)架构的语义搜索模型。使用时需按行读取JSON或CSV格式数据,将锚点作为输入,语义短语作为正例标签,通过对比学习或三元组损失优化模型,使其习得文学文本与查询间的语义关联。研究者和开发者可依据Apache 2.0许可自由扩展,适用于构建小说检索、文学阅读辅助系统等应用。
背景与挑战
背景概述
literary-text-pairs数据集由RafaelUI研究团队创建,旨在为文学文本的多语言语义搜索模型提供训练支持。该数据集于近期发布,涵盖英语、俄语、法语、德语、西班牙语、意大利语和葡萄牙语七种语言,包含133,943对文本样本,来源包括Project Gutenberg、RusLit语料库、OPUS Books和Taiga语料库等经典文学资源。其核心研究问题在于如何通过细粒度的语义匹配,提升文学领域跨语言检索的准确性与鲁棒性。该数据集为文学文本的语义表示学习提供了高质量的训练材料,推动了自然语言处理在文化传承与数字人文中的应用,对多语言语义搜索和句子嵌入模型的改进具有重要影响。
当前挑战
该数据集所解决的领域问题集中于文学文本的语义检索挑战:文学语言富含隐喻、修辞和语境依赖,常规语义搜索模型难以捕捉其深层含义,且多语言场景下跨文化表达差异进一步加剧了匹配难度。在构建过程中,团队面临文本对齐的复杂性,需从异构语料库中提取并确保来源的多样性与版权合规性;同时,生成精确的语义查询与 paraphrases 需要人工校验与自然语言处理技术的结合,以维持短描述与原文间的高语义一致性,避免噪声对模型训练的干扰。
常用场景
经典使用场景
在自然语言处理与数字人文学科的交汇处,literary-text-pairs数据集为多语言文学文本的语义检索与句子表征学习提供了基石。该数据集包含约13.4万条由锚点段落、短查询描述和同义改写构成的三元组,覆盖英、俄、法、德等七种语言,源自古登堡计划、RusLit语料库等经典文学资源。其核心设计理念在于捕捉文学文本中隐式语义关联——例如,将一段关于‘主人公在暮色中独步林间’的段落与‘黄昏树林里的孤独漫步’这一查询短语配对,从而训练模型理解文学性表达的深层内涵,而非仅停留于字面匹配。这种精细化的标注范式使得该数据集成为微调多语言句子嵌入模型(如literary-minilm)的首选,推动了跨语言文学语义对齐与检索的边界。
实际应用
在实际应用层面,literary-text-pairs赋能了多款面向文学爱好者的智能工具与数字图书馆系统。基于该数据集微调的语义搜索模型能够支持用户通过自然语言短语(如‘骑士与龙对话的片段’)在数百万文学作品中精确定位对应段落,打破了传统关键词检索的局限性;尤其适用于古登堡计划等大规模电子书存储库,极大提升了文献发现效率。在文学教学领域,教师可利用其同义改写功能生成多样化表述的示例,辅助学生理解经典文本中的多义性表达。此外,该数据集已被整合进推荐系统,通过分析用户检索历史中的语义偏好,精准推荐具有相似主题或写作风格的文学著作,从而深化了个性化阅读体验的层次。
衍生相关工作
literary-text-pairs作为核心训练资源,催生了多部具有里程碑意义的研究工作。最直接的衍生成果是RafaelUI/literary-minilm模型——一个专为文学语义搜索优化的多语言句子编码器,在跨语言文学段落检索任务上展现了超越通用模型的精妙表现。后续研究受此启发,开始探索如何将同类标注范式扩展到古汉语、梵文等低资源文学语系,形成了文学文本表征学习的微调方法论体系。同时,该数据集还激发了对文学文本中‘叙事视角’与‘情感弧线’进行语义建模的尝试,衍生出如literary-plot-sim(聚焦情节相似度计算)等子领域数据集。这些工作共同编织出一张日益稠密的文学计算研究网络,持续解码着人类叙事智慧的深层结构。
以上内容由遇见数据集搜集并总结生成



