LiteraryTaste

github2025-11-12 更新2025-12-06 收录

下载链接：

https://github.com/mj-storytelling/LiteraryTaste

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含2000多对创意写作片段文本阅读偏好的数据集，收集自60名注释者，每人注释了100对文本（显性偏好）。我们还收集了陈述性偏好，即注释者回答了一份关于他们阅读偏好的调查问卷。数据集由两个文件组成：preference_tasks.csv和annotated_instances.csv，分别包含用于收集偏好注释的文本对和注释者的注释结果。

This is a dataset containing over 2000 pairs of creative writing fragment texts with corresponding reading preferences, collected from 60 annotators, each of whom annotated 100 text pairs (explicit preferences). We additionally collected stated preferences, where annotators completed a questionnaire regarding their reading preferences. The dataset comprises two files: preference_tasks.csv and annotated_instances.csv, which respectively contain the text pairs used for collecting preference annotations and the annotation results submitted by the annotators.

创建时间：

2025-11-12

原始信息汇总

LiteraryTaste 数据集概述

数据集简介

该数据集收集了超过2000对创意写作片段的文本阅读偏好，由60名标注者进行标注，每位标注者标注了100对文本（即“显示偏好”）。此外，数据集还收集了“陈述偏好”，即标注者通过回答调查问卷来表明其阅读偏好。

数据集构成

数据集包含两个CSV文件。

1. preference_tasks.csv

此文件包含用于收集偏好标注的文本对。文本来源于五个出处（详见原稿）。文件包含多列，其中关键列为：

text1 和 text2：被比较的两个文本。
id：用于链接任务和实际标注结果（在annotated_instances.csv中）的列。

2. annotated_instances.csv

此文件包含标注者的标注结果，涵盖显示偏好和陈述偏好。

显示偏好结果：具有数值型instance_id，与preference_tasks.csv中的id相对应。根据标注者的选择，会填写preference:::Text A、preference:::Text B或preference:::I am not sure中的一项。
陈述偏好结果：instance_id为字符串类型，除上述偏好列外，多个其他列也应已被填写。

数据收集与分析

关于数据集的收集与分析方法的详细信息，请参阅原稿。

引用

如果该数据集对您的研究有帮助，请引用我们的原稿。引用格式待补充。

搜集汇总

数据集介绍

构建方式

在文学计算研究领域，理解读者对文本的审美偏好是探索阅读行为的关键。LiteraryTaste数据集通过系统化设计构建，涵盖了超过2000对创意写作片段，这些文本源自五个不同的文学来源，确保了内容的多样性与代表性。数据收集过程中，邀请了60位标注者参与，每位标注者需对100对文本进行偏好选择，形成了所谓的“显性偏好”标注。同时，还通过问卷调查的形式，记录了标注者的“陈述性偏好”，从而构建了一个包含显性与隐性阅读倾向的双维度数据集。整个构建过程注重文本配对的质量与平衡，以支持后续的深入分析。

特点

LiteraryTaste数据集的特点在于其多维度的偏好记录方式，不仅捕捉了读者在具体文本对比中的直接选择，还整合了基于调查的自我报告偏好，这为研究阅读心理提供了丰富的实证材料。数据集中的文本片段覆盖了广泛的文学风格与主题，增强了其适用性与泛化能力。此外，数据以结构化的CSV文件形式提供，包括preference_tasks.csv和annotated_instances.csv两个文件，前者详细记录了文本对及其来源，后者则汇总了标注结果，便于研究者进行数据链接与分析。这种设计使得数据集在保持透明度的同时，也支持灵活的后续应用。

使用方法

使用LiteraryTaste数据集时，研究者可首先通过preference_tasks.csv文件获取文本对的基本信息，如文本内容与来源标识，进而利用annotated_instances.csv中的标注结果进行关联分析。对于显性偏好数据，可通过instance_id字段将标注选择与对应文本对匹配，探索读者在具体情境下的决策模式；而对于陈述性偏好数据，则需关注字符串类型的instance_id及相关调查列，以揭示更广泛的阅读倾向。数据集适用于文学分析、计算语言学及心理学研究，支持偏好建模、文本风格比较等任务，使用时建议参考原始研究手稿以获取详细方法指导。

背景与挑战

背景概述

在自然语言处理与计算文学研究领域，理解读者的文本偏好一直是一个复杂而富有挑战性的课题。LiteraryTaste数据集由研究团队于近年创建，旨在通过收集超过2000对创意写作片段的阅读偏好标注，深入探索个体在文学品味上的差异。该数据集涵盖了60位标注者对文本对的显性偏好标注以及通过调查问卷获取的陈述性偏好数据，其核心研究问题聚焦于如何量化并建模人类对文学文本的主观审美判断。这一数据集的构建为计算美学、个性化推荐系统及文学批评的实证研究提供了宝贵的资源，推动了人机交互与数字人文领域的交叉融合。

当前挑战

LiteraryTaste数据集所针对的领域问题在于如何准确捕捉并建模人类对文学文本的主观偏好，这一任务面临多重挑战：文本偏好的高度主观性与文化背景依赖性使得标注一致性难以保证；同时，创意写作片段在风格、主题和情感上的细微差异要求标注者具备较高的文学素养与专注力。在数据集构建过程中，研究人员需克服标注任务设计的复杂性，例如平衡文本对的多样性与可比性，并有效整合显性偏好与陈述性偏好数据，以确保数据的内在效度与可靠性。此外，如何将此类主观偏好数据应用于机器学习模型，避免过拟合与偏见泛化，亦是后续研究的关键挑战。

常用场景

经典使用场景

在文学分析与计算语言学领域，LiteraryTaste数据集为研究文本阅读偏好提供了关键资源。该数据集通过收集60名标注者对2000多对创意写作片段的偏好标注，包括显性偏好与陈述性偏好，使得研究者能够深入探索读者对不同文学风格的接受度与评价机制。这一经典使用场景常被应用于构建和验证文本偏好预测模型，帮助揭示读者在文学鉴赏过程中的认知模式与情感倾向，从而推动个性化阅读推荐系统的发展。

解决学术问题

LiteraryTaste数据集有效解决了文学研究中读者偏好量化与分析的难题。传统研究多依赖主观访谈或小规模调查，难以系统捕捉多样化的阅读倾向。该数据集通过大规模标注，为计算文学分析提供了实证基础，支持研究者探讨文本特征（如语言风格、叙事结构）如何影响读者选择。这不仅深化了对文学接受理论的理解，还为跨学科研究（如心理学与人工智能的交叉）搭建了桥梁，促进了文学研究的科学化与数据驱动转型。

衍生相关工作

基于LiteraryTaste数据集，已衍生出多项经典研究工作。例如，研究者利用该数据训练深度学习模型，预测读者对文学片段的偏好，相关成果发表在计算语言学与人工智能会议上。这些工作进一步扩展至文本风格迁移、情感分析等领域，推动了自然语言处理技术在文学研究中的应用。同时，该数据集也激发了跨学科合作，如结合心理学理论探讨偏好形成的认知机制，为文学计算提供了新的方法论框架。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集