FICSIM

Name: FICSIM
Creator: 卡内基梅隆大学语言技术研究所,俄克拉荷马大学图书馆与信息研究学院
Published: 2025-10-24 02:30:19
License: 暂无描述

arXiv2025-10-24 更新2025-10-29 收录

下载链接：

https://huggingface.co/datasets/ficsim/ficsim

下载链接

链接失效反馈

官方服务：

资源简介：

FICSIM是一个为长篇小说的多方面语义相似性评估而构建的数据集。该数据集由长篇小说、最近创作的小说组成，包括12个维度的相似度评分，这些评分由作者产生的元数据和数字人文学者验证。数据集来源于Archive of Our Own（AO3），一个拥有超过1500万作品的数字存档。为了保证数据质量，作者们获得了每位作者的同意，以确保他们的作品能够被用于研究和分析。FICSIM旨在解决数字人文领域中，特别是在计算文学研究任务中，评估语言模型在处理长篇文本方面的能力问题。

FICSIM is a dataset constructed for multi-faceted semantic similarity assessment of full-length novels. The dataset comprises newly created full-length novels, with similarity scores across 12 dimensions validated by author-generated metadata and digital humanities scholars. The dataset is sourced from Archive of Our Own (AO3), a digital archive housing over 15 million works. To ensure data quality, the dataset developers have obtained informed consent from each original author to utilize their works for research and analysis. FICSIM aims to address the gap in evaluating large language models' capabilities in processing long-form texts within the digital humanities, particularly for computational literary research tasks.

提供机构：

卡内基梅隆大学语言技术研究所,俄克拉荷马大学图书馆与信息研究学院

创建时间：

2025-10-24

搜集汇总

数据集介绍

构建方式

在计算文学研究领域，长文本语义相似性评估面临数据污染与细粒度标注成本高的双重挑战。FICSIM数据集通过精心筛选Archive of Our Own平台中2022年12月后完成的英文同人小说，构建起包含90部作品的语料库。采用作者自主标注的元数据作为基础，通过专家主导的标签分类流程，将9448个原始标签归入情节、人物状态、主题等12个语义维度，并利用Gemini Embedding模型计算成对相似度分数，最终形成33,790组跨维度对比数据。

特点

该数据集在文学计算领域展现出独特价值，其文本长度覆盖1万至48.8万词区间，模拟了短篇小说到长篇小说的实际研究场景。通过同人小说作者社区形成的标签体系，天然具备对叙事要素的多维度刻画能力，其中50%的标签经过去领域化处理，确保跨作品比较的普适性。特别构建的三大评估组别——细粒度语义相似性、整体叙事相似性及表面特征相似性，为衡量嵌入模型在文学分析任务中的表现提供了立体化评估框架。

使用方法

研究者可通过Hugging Face平台获取该数据集，在遵循禁止模型训练的使用协议前提下，可利用其评估长文本嵌入模型在多维度语义相似性任务中的表现。典型应用流程包括：分别计算目标模型在12个语义维度上的嵌入向量，通过余弦相似度与人工标注的金标准进行斯皮尔曼等级相关分析，重点观察模型在细粒度语义特征与表面特征之间的平衡能力。该数据集特别适用于检验模型在长文本中捕捉主题、叙事风格等深层文学特征的有效性。

背景与挑战

背景概述

FICSIM数据集由卡内基梅隆大学语言技术研究所与俄克拉荷马大学图书馆信息研究学院的研究团队于2025年创建，旨在解决计算文学研究中长文本语义相似性评估的空白。该数据集聚焦于长篇虚构文本，通过作者标注的元数据构建了12个维度的相似性评分体系，涵盖情节、人物状态、主题等文学分析核心要素。其创新性在于采用同人小说作为数据源，既规避了公共领域文本的数据污染问题，又通过严格的作者授权机制保障了学术伦理，为数字人文领域的语义嵌入模型评估提供了重要基准。

当前挑战

该数据集面临的领域挑战在于如何精准量化文学文本的多维度语义相似性，现有嵌入模型普遍过度关注作者风格、粉丝圈归属等表层特征，而难以捕捉主题、情感等深层叙事元素。构建过程中的核心挑战包括：需设计复杂的元数据清洗流程以标准化用户生成的标签；需通过持续的作者沟通与伦理审查机制确保数据使用的合法性；同时需平衡文本长度与模型上下文窗口的限制，开发有效的滑动窗口嵌入策略以处理超长叙事文本。

常用场景

经典使用场景

在计算文学研究领域，FICSIM数据集为长篇小说文本的语义相似性评估提供了关键支撑。该数据集通过作者标注的元数据构建了12个维度的相似性评分体系，涵盖情节、人物状态、主题等核心文学要素。研究者利用这些精细标注，能够系统评估嵌入模型在捕捉文学文本深层语义特征时的表现，突破了传统相似性数据集仅关注短文本和粗粒度相似性的局限。

衍生相关工作

基于FICSIM数据集的研究催生了多个重要衍生工作。在模型架构方面，研究者开发了针对长文本语义相似性的专用嵌入方法；在评估体系上，建立了融合文学特征的多维度评测标准。数字人文领域借鉴其数据构建理念，发展了更多关注创作者权益的语料收集方法。这些工作共同推动了计算文学研究从方法创新到伦理规范的全方位发展。

数据集最近研究