Style Similarity Dataset

github2023-11-07 更新2024-05-31 收录

下载链接：

https://github.com/style-dataset/style-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

为了开发捕捉风格隐含方法的工具，我们收集了一个新颖的风格判断数据集。我们不是要求个人对风格进行分类或标记，而是收集风格相似性的判断，使用三段式摘录的比较，如这里和这里所示。摘录来自当代小说，因为它易于访问、广泛阅读，并展示了多样的风格。重要的是要注意，我们预计在个人如何判断段落方面会有很大的分歧，因此我们为每个比较收集了七个判断。

To develop tools that capture implicit stylistic methods, we have collected a novel dataset for stylistic judgment. Instead of asking individuals to classify or label styles, we gathered judgments on stylistic similarities using comparisons of three excerpts, as shown here and here. The excerpts are drawn from contemporary novels due to their accessibility, wide readership, and demonstration of diverse styles. It is important to note that we anticipate significant divergence in how individuals judge passages, hence we collected seven judgments for each comparison.

创建时间：

2019-01-17

原始信息汇总

数据集概述

数据集名称

Style Similarity Dataset

数据集目的

收集关于文学风格的相似性判断，通过比较三段文本摘录的风格相似度，以开发捕捉风格细微差别的工具。

数据集内容

比较（Comparisons）：众包工作者阅读一组三段文本摘录，并比较第一段摘录（A）与后两段（B, C）的风格相似度，判断B或C中哪一段与A风格更相似。
解释（Explanations）：每位众包工作者提供自由文本解释，说明为何选择B或C与A相似。
强度（Intensities）：众包工作者在一至五的尺度上评价其选择的B/C与A的相似度。

数据集结构

原始数据：包含匿名的众包结果CSV文件。
清洗数据：包含“善意”响应的CSV文件，由f8_clean_bad_rows.py脚本处理。
摘录与元数据：包含摘录及其元数据（如标题、作者、流派等）。
人口统计数据：包含贡献者的CSV文件，与风格比较数据CSV文件中的_worker_id列匹配。

数据集生成

摘录来自当代小说，从Amazon Kindle的公开预览中提取，每段约200字。
摘录避免包含对话，并从文本预览的中部和末尾提取。
每本书提取2至4段摘录，均匀分布在不同流派中。
为避免偏差，同一文本的摘录不会出现在同一组比较中。

数据集使用

用于训练机器学习模型，预测文本摘录间的风格相似性。
模型使用神经网络，输入为摘录三元组，输出为B或C中哪一段与A风格更相似。

数据集详情

共798本书，1806段摘录，21,630组三元组，150,720次收集的判断，66,061次善意判断，44%的善意判断率，5,162组高一致性三元组。
数据集分为7个不同的三元组库，每个库根据不同的规则生成，包括是否包含引用或对话，以及摘录的使用频率和连接紧密程度。

搜集汇总

数据集介绍

构建方式

Style Similarity Dataset的构建基于对文学风格的隐性捕捉，通过收集风格相似性判断来构建数据集。研究团队从当代小说中提取文本片段，采用三组文本片段（A、B、C）的比较方式，要求众包工作者判断B或C中哪一个在风格上与A更为相似。每个比较任务收集了七次判断，以确保数据的多样性和可靠性。文本片段选自亚马逊Kindle的公开预览，涵盖了七个不同的小说类别，确保了数据集的广泛性和代表性。

特点

该数据集的特点在于其独特的风格相似性判断机制，通过三组文本片段的比较，捕捉了文学风格的细微差异。数据集不仅包含风格相似性判断，还提供了众包工作者的解释和相似度评分，进一步丰富了数据的维度。此外，数据集涵盖了多种小说类别，确保了风格多样性的覆盖。数据集还通过不同的语料库设计，探讨了对话、引用等因素对风格判断的影响，为研究提供了多维度的分析视角。

使用方法

该数据集可用于训练机器学习模型，预测文本片段的风格相似性。研究团队使用神经网络模型，结合字符序列、词性序列和词嵌入序列进行特征提取，并通过LSTM和卷积网络处理这些特征。模型通过计算文本片段之间的L2范数距离，判断B或C中哪一个与A更为相似。此外，数据集还可用于聚类分析或特定风格特征的探索性研究，为文学风格的计算分析提供了丰富的实验基础。

背景与挑战

背景概述

Style Similarity Dataset 是由 Sarah Sterman、Evey Huang、Vivian Liu 和 Eric Paulos 在 CHI 2020 会议上提出的一个创新性数据集，旨在通过计算工具捕捉文学风格的隐性特征。该数据集的核心研究问题是如何量化文学文本之间的风格相似性，而非传统的分类或标签方法。通过收集众包工作者对文本片段风格相似性的判断，数据集为文学风格的计算分析提供了新的视角。该数据集主要基于当代小说文本，涵盖了多种文学流派，确保了风格的多样性。其创建不仅推动了文学风格计算分析的发展，还为自然语言处理领域提供了新的研究方向。

当前挑战

Style Similarity Dataset 面临的主要挑战包括两个方面。首先，在领域问题层面，文学风格的量化本身具有高度主观性，不同读者对风格的理解和判断可能存在显著差异，这导致数据集的标注结果存在较大的不一致性。其次，在数据集构建过程中，如何从大量文本中提取具有代表性的片段，并确保这些片段在风格上具有可比性，是一个复杂的技术难题。此外，众包标注的质量控制也是一个关键挑战，尽管通过多次标注和筛选机制提高了数据的可靠性，但仍需进一步优化以确保数据的高质量。

常用场景

经典使用场景

Style Similarity Dataset 主要用于研究文学风格的相似性，特别是在当代小说文本中。通过三组文本摘录的比较，研究者能够分析不同作者在词汇选择、句子结构、节奏等方面的风格差异。这种数据集的使用场景通常涉及文学分析、自然语言处理以及机器学习模型的训练，旨在捕捉和量化文本风格的特征。

衍生相关工作

基于 Style Similarity Dataset，研究者已经开发了多种机器学习模型，用于预测文本风格的相似性。这些模型通常结合了字符级、词级和句法级特征，通过深度学习技术进行训练。此外，该数据集还激发了关于风格迁移、文本生成和风格聚类的研究，推动了文学风格分析领域的进一步发展。

数据集最近研究