GPT-WritingPrompts
收藏arXiv2024-06-25 更新2024-06-26 收录
下载链接:
https://github.com/KristinHuangg/gpt-writing-prompts
下载链接
链接失效反馈官方服务:
资源简介:
GPT-WritingPrompts数据集是由多伦多大学和达尔豪斯大学的研究团队创建,旨在比较人类与GPT-3.5在短故事创作中的角色描写差异。该数据集包含206,226条由GPT-3.5生成的短故事,以及相应的Reddit用户创作的故事,均基于相同的写作提示。数据集的创建过程涉及使用GPT-3.5模型生成故事,并确保与人类创作的故事在长度上相当。GPT-WritingPrompts数据集主要用于研究机器与人类在叙事特征上的差异,特别是在情感、描述性和性别偏见等方面的表现,以解决机器生成文本中的偏见问题。
GPT-WritingPrompts Dataset was developed by a research team from the University of Toronto and Dalhousie University, with the goal of comparing the differences in character portrayal between humans and GPT-3.5 in short story creation. This dataset contains 206,226 short stories generated by GPT-3.5, as well as corresponding stories created by Reddit users, all based on identical writing prompts. The dataset construction process involved using the GPT-3.5 model to generate stories, and ensuring that the length of these machine-generated stories is comparable to that of human-written works. The GPT-WritingPrompts dataset is primarily utilized to study the disparities in narrative characteristics between machine-generated and human-written texts, especially their performance in aspects such as emotion, descriptiveness and gender bias, so as to address the problem of bias in machine-generated text.
提供机构:
多伦多大学计算机科学系, 达尔豪斯大学计算机科学学院, 向量研究所
创建时间:
2024-06-25
原始信息汇总
GPT-WritingPrompts 数据集概述
数据集下载
下载 GPT-WritingPrompts 数据集 并存储在 data/ 子文件夹中。
数据文件
故事和提示
data/human_wp_stories.json:包含从 WritingPrompts 数据集中提取的人类编写的故事。data/gpt_wp_stories.json:包含 GPT-3.5 生成的故事。
视角信息和处理后的故事
data/human_info.csv.gzip和data/gpt_info.csv.gzip:包含视角信息和主角替换后的故事。
故事评分
outputs/文件夹:包含每个维度的故事评分。
词典
lexicon_data文件夹:包含用于推断每个维度词级评分的词典。- VAD:使用 NRC-VAD 词典,保留高评分 (>=0.67) 和低评分 (<=0.33) 的词汇。
- Empath 词典:包含与角色相关的各种刻板印象词汇。
- Power:使用 Empath 词典中的
powerful和weak词汇。 - Appearance 和 Intellect:使用种子词及其反义词。
代码
数据预处理
- 格式化故事数据:使用
data_parsing/save_stories.py将原始训练集格式化为 JSON 文件。 - 生成 GPT-3.5 故事:使用
generate_story/generate_story.py生成 500 字的故事。 - 推断视角:使用 AllenNLP 的 SpanBERT 模型推断故事的视角,代码在
data_parsing/pov_utils.py。 - 替换主角标记:使用
data_parsing/process_stories.py替换主角相关标记。
主要方法
- 提取属性:使用 SpaCy 和 COMeT 提取主角属性,代码在
story_analysis/attr_score_funcs.py。 - 评分属性:使用词典对属性进行评分,代码在
story_analysis/attr_score_funcs.py。
分析
使用 outputs-results-analysis.ipynb 笔记本进行数据分析和可视化。
搜集汇总
数据集介绍

构建方式
GPT-WritingPrompts 数据集是通过扩展 Reddit WritingPrompts 数据集构建而成的。Reddit WritingPrompts 数据集包含 97,222 个独特的写作提示和多个由 Reddit 用户根据每个提示编写的短篇故事。研究人员使用 OpenAI 的 GPT-3.5 模型根据相同的提示生成了相应的人工故事,并确保这些故事与人类编写的故事的长度相当(约 500 个单词)。生成的数据集,名为 GPT-WritingPrompts,为自由形式的自然语言短篇故事提供了丰富的资源,其中包含了人类和机器对相同提示的匹配响应。
特点
GPT-WritingPrompts 数据集的特点在于它对人类和机器在六种维度上的叙事特征进行了分析。这六种维度包括情绪维度(效价、唤醒、支配),以及性别线上的刻板印象所经常注意到的三个方面:智力、外貌和权力。该数据集还量化了在叙事视角和故事主要主角的性别分组时,人类编写的和 GPT 生成的故事在这些维度上的差异。此外,该数据集还比较了使用不同方法分析时的描绘偏见的连贯性,以研究对偏见的度量方法的敏感性。
使用方法
使用 GPT-WritingPrompts 数据集的方法包括以下步骤:首先,确定故事的主角和叙事视角。然后,从故事中提取主角的属性,这可以通过使用 spaCy 进行语言学依赖性分析或使用 COMeT 进行常识推理来完成。接下来,将提取的属性转换为每个描绘维度上的数值分数。最后,通过比较人类编写的和 GPT 生成的故事的分数差异,可以分析人类和机器叙事的差异,并研究性别偏见等特定主题。
背景与挑战
背景概述
自然语言处理(NLP)领域,尤其是大型语言模型(LLMs)的发展,极大地推动了文本生成技术的进步,这些模型在故事创作和叙述方面展现出巨大的潜力。为了深入理解机器生成的故事与人类叙述之间的差异,Huang等人创建了一个名为GPT-WritingPrompts的数据集。该数据集基于Reddit WritingPrompts,其中包含了人类用户对97,222个独特写作提示的回应,并补充了GPT-3.5生成的故事。通过比较人类和机器生成的故事在情感和描述特征上的差异,研究人员旨在揭示大型语言模型在叙述风格、角色刻画和情感表达上的特性。该数据集的发布为研究自然语言生成(NLG)和故事叙述中的偏见提供了宝贵的资源。
当前挑战
GPT-WritingPrompts数据集的研究面临着多个挑战。首先,机器生成的故事与人类故事在情感、描述和角色刻画上存在显著差异,这为理解和解释这些差异带来了挑战。其次,构建过程中,研究人员需要解决如何有效地量化故事特征的问题,包括情感维度、角色描绘和性别偏见等方面。此外,数据集中人类故事和机器生成故事的数量不平衡,这限制了更深入和细致的比较研究。最后,由于核心词库和属性提取方法的局限性,可能无法完全捕捉故事中的隐含偏见和细微差别。
常用场景
经典使用场景
GPT-WritingPrompts数据集被广泛应用于自然语言处理(NLP)领域中,特别是在故事生成和创作方面。该数据集的经典使用场景包括但不限于:1. 训练和评估故事生成模型,如GPT-3.5等;2. 研究人类和机器在故事创作中的差异,以及故事中的性别偏见等社会文化现象;3. 开发和改进故事分析工具,如角色属性提取、情感分析等。通过对GPT-WritingPrompts数据集的分析,研究人员可以更深入地理解机器生成的故事与人类创作的故事之间的差异,从而推动NLP领域的发展。
衍生相关工作
GPT-WritingPrompts数据集衍生了以下几个相关的经典工作:1. Lucy and Bamman (2021)使用GPT-3生成的故事数据集,研究了故事中的性别偏见;2. Huang et al. (2021)使用ROCStories数据集,研究了人类和机器生成的故事中的隐含偏见;3. Giulianelli et al. (2023)研究了神经文本生成器的不确定性,并提出了新的评估方法。这些相关工作都基于GPT-WritingPrompts数据集,为NLP领域的研究提供了重要的数据支持和研究思路,有助于推动相关领域的发展。
数据集最近研究
最新研究方向
随着大型语言模型(LLM)在文本生成任务中的广泛应用,研究者们开始关注这些模型生成的文本与人类创作的文本之间的差异。GPT-WritingPrompts数据集通过将人类创作的短篇故事与OpenAI的GPT-3.5模型生成的故事进行对比,旨在量化这些差异。研究发现,机器生成的故事在情感和描述性特征上与人类故事存在显著差异,例如,机器生成的故事通常更加积极、更具控制力,但活动性较低。此外,机器和人类在刻画主要角色时表现出相似的偏见,例如,女性角色通常与积极情绪、较低的控制力和与外表相关的描述词相关联,而男性角色则与更高的权力和智力相关联。这些发现对于理解LLM的生成行为和潜在的偏见具有重要意义,并为未来研究提供了有价值的资源。
相关研究论文
- 1The GPT-WritingPrompts Dataset: A Comparative Analysis of Character Portrayal in Short Stories多伦多大学计算机科学系, 达尔豪斯大学计算机科学学院, 向量研究所 · 2024年
以上内容由遇见数据集搜集并总结生成



