扩展的故事数据集
收藏arXiv2025-04-09 更新2025-04-11 收录
下载链接:
http://arxiv.org/abs/2504.06393v1
下载链接
链接失效反馈官方服务:
资源简介:
本研究使用的数据集是基于GPTWritingPrompts数据集的扩展,包含了人类和模型对短故事提示的平行响应。该数据集由Cornell大学的研究人员创建,旨在研究大型语言模型对感官语言的使用情况。数据集包含了20,000个文本,涵盖了人类和18种不同模型家族对1,000个短故事提示的响应。这些响应被用来分析模型在十二个感官轴上对感官语言的使用情况,以及它们与人类使用的差异。
The dataset used in this study is an extension of the GPTWritingPrompts dataset, containing parallel responses from humans and models to short story prompts. Developed by researchers from Cornell University, this dataset aims to investigate the use of sensory language by large language models (LLMs). It comprises 20,000 texts, covering responses from humans and 18 distinct model families to 1,000 short story prompts. These responses are utilized to analyze how models employ sensory language across twelve sensory axes, as well as the discrepancies between their usage and that of human writers.
提供机构:
康奈尔大学
创建时间:
2025-04-09
搜集汇总
数据集介绍

构建方式
扩展的故事数据集构建于GPT-WritingPrompts数据集的基础上,通过随机选取1000个创意写作提示,并收集人类和GPT-3.5的回应,进一步生成了18个流行模型的18000个故事回应。数据集涵盖了多种模型家族,包括Gemini、GPT、Llama、OLMo、Phi和Qwen。生成过程中采用了两种系统提示(‘author’和‘reddit’),并设置了温度为0.95以确保多样性。此外,数据集还结合了两个认知语言学词典,用于测量文本在12个感官轴上的感官语言使用强度。
特点
该数据集的特点在于其广泛的模型覆盖和丰富的感官语言标注。数据集包含了来自不同模型家族的20,000个文本,每个文本均标注了12个感官轴的感官语言强度,包括听觉、味觉、触觉等。研究发现,不同模型家族在感官语言使用上存在显著差异,例如Gemini模型在大多数感官轴上使用感官语言显著多于人类,而其他模型则显著少于人类。数据集还提供了线性探测和逻辑回归分析的结果,揭示了模型在识别感官语言方面的能力及其与人类语言使用的差异。
使用方法
扩展的故事数据集可用于研究语言模型在感官语言使用上的表现及其与人类语言的差异。研究人员可以利用该数据集进行感官语言强度的测量和比较,分析不同模型家族在感官语言使用上的特点。此外,数据集还可用于训练和评估逻辑回归模型,以区分人类和模型生成的文本。通过结合线性探测技术,研究人员可以进一步探索模型在识别感官语言方面的能力。数据集的使用方法包括文本预处理、感官强度计算、统计分析和模型训练等步骤,为相关研究提供了全面的数据支持。
背景与挑战
背景概述
扩展的故事数据集由康奈尔大学的研究团队Rebecca M. M. Hicke、Sil Hamilton和David Mimno于2025年创建,旨在探究无实体经验的大型语言模型(LLMs)在感官语言使用上与人类的差异。该数据集扩展了现有的GPT-WritingPrompts数据集,新增了18个流行模型生成的18,000个故事,覆盖了六种主要模型家族。研究核心问题聚焦于LLMs是否能近似人类对感官语言的运用,涉及语言学、机器人学、认知科学和叙事学等多个领域。这一研究不仅揭示了不同模型家族在感官语言使用上的显著差异,还为理解LLMs的语言生成机制提供了重要洞见。
当前挑战
该数据集面临的挑战主要包括两方面:领域问题的挑战和构建过程的挑战。在领域问题方面,LLMs缺乏实体经验,难以准确模拟人类感官语言的使用,导致生成的故事在感官语言表达上与人类存在显著差异。构建过程中的挑战则包括数据集的扩展与标注,需要确保生成的故事质量和多样性,同时使用认知科学中的感官词典对文本进行精确的感官强度评分。此外,研究还发现指令调优可能抑制模型使用感官语言,这为数据集的构建和后续研究带来了额外的复杂性。
常用场景
经典使用场景
扩展的故事数据集在自然语言处理和认知科学领域中被广泛用于研究语言模型对人类感官语言的模拟能力。通过对比人类和模型生成的短篇故事,该数据集揭示了语言模型在感官语言使用上的显著差异。特别是在创意写作任务中,数据集被用于量化模型在听觉、味觉、触觉等十二个感官轴上的语言表现,为理解模型的非具身性语言生成提供了重要依据。
实际应用
在实际应用层面,该数据集为改进创意写作辅助工具提供了重要参考。教育领域可利用其发现优化写作指导系统,使AI反馈更符合人类表达习惯。在机器人交互设计方面,研究结果警示开发者注意语言模型在具身交流中的局限性。心理治疗应用也可据此调整对话系统,避免因感官语言缺失影响共情效果。
衍生相关工作
该数据集已衍生出多项重要研究,包括语言模型感官知识探测、多模态表征分析等方向。后续工作通过构建线性探针验证了模型识别感官语言的能力,相关方法被应用于更广泛的认知语言学研究中。基于数据集发现的RLHF影响机制,近期研究开始探索更精细的指令微调策略,以平衡模型的创造力和语言规范性。
以上内容由遇见数据集搜集并总结生成



