llama3.1-8b-short-stories

Hugging Face2025-08-09 更新2025-08-10 收录

下载链接：

https://huggingface.co/datasets/agentlans/llama3.1-8b-short-stories

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含由Llama 3.1 8B模型根据指定提示生成的短篇故事。这些故事可用于创意写作实验的基线，研究模型的审查、偏见及内容倾向性，以及挖掘AI生成文本中的常见套话。数据集的每个条目包括原始的三句提示、生成的故事文本、故事字数和一个表示故事是否完整的布尔值。

This dataset consists of short stories generated by the Llama 3.1 8B model based on specified prompts. These stories can serve as baselines for creative writing experiments, facilitating research on model censorship, bias, and content tendency, as well as the discovery of common clichés in AI-generated text. Each entry in the dataset includes the original three-sentence prompt, the generated story text, the story's word count, and a boolean value indicating whether the story is complete.

创建时间：

2025-08-09

原始信息汇总

Llama 3.1 8B Short Stories 数据集概述

数据集基本信息

标签：llama 3.1, short story, creative writing
任务类别：text-generation
语言：en

数据集内容

来源：由 Llama 3.1 8B Instruct Q4KM 模型生成的短篇故事。
用途：
- 作为创意写作实验的基准
- 探索模型的审查、偏见和内容倾向
- 挖掘写作中应避免的常见陈词滥调和AI生成短语

数据集创建方法

种子提示：从 agentlans/euclaise-WritingPromptsX 数据集的每个短篇故事中随机选择三个连续的句子。
生成模板：

Write a short story inspired by the following excerpt, though you are not required to follow it strictly. The story should be creative and original, exploring any theme or genre you choose. Aim for a narrative that is engaging and emotionally resonant, with a clear beginning, middle, and end. Use a descriptive and immersive writing style, and maintain a tone that feels thoughtful and reflective. The story should be 800–1,200 words in length and suitable for a general audience.

[EXCERPT]

数据集字段

seed：用作提示的原始三句摘录。
text：Llama 3.1 生成的短篇故事输出。
word_count：生成故事的字数。
valid：布尔值，指示输出是否为完整的短篇故事。

示例条目

json { "seed": "But Michael stood motionless. Jack was silent. They both stared at themselves through each other.", "text": "The old wooden pier creaked beneath their feet as they stood at the waters edge, [...]", "word_count": 577, "valid": true }

局限性

模型生成的故事通常短于提示中指定的800–1,200字目标。
作为合成数据，部分故事可能缺乏润色或连贯的叙事结构。
用户在使用此数据集时应遵守 Llama 3.1 的使用指南。

搜集汇总

数据集介绍

构建方式

在创意写作领域的数据集构建中，llama3.1-8b-short-stories采用了系统化的生成策略。该数据集基于agentlans/euclaise-WritingPromptsX数据集中的短篇故事，随机选取连续三句话作为种子提示，随后使用Llama 3.1 8B Instruct模型按照特定指令模板生成短篇故事。指令要求模型创作具有原创性、情感共鸣和完整叙事结构的800-1200字故事，确保了生成内容的规范性和一致性。

特点

该数据集呈现出人工智能生成文学文本的典型特征，包含丰富的叙事体裁和主题变体，展现了模型在创意写作中的风格倾向。每个故事条目均附带原始种子文本、生成内容、字数统计及有效性标识，为研究者提供了结构化分析基础。生成文本普遍具有描述性和沉浸式写作风格，但在叙事连贯性和字数要求方面存在一定波动，体现了当前大语言模型在创造性任务中的能力边界。

使用方法

研究人员可将该数据集作为创造性写作实验的基准数据，通过对比分析生成文本与人类创作的故事，探索人工智能在叙事结构、情感表达和主题开发方面的特性。使用时应重点关注模型在内容倾向性、常见套路和短语生成方面的模式，同时严格遵守Llama 3.1的使用准则。建议在使用前进行数据有效性筛选，并结合具体研究目标对文本质量进行人工评估。

背景与挑战

背景概述

Llama3.1-8b-short-stories数据集由人工智能研究社区于2024年构建，依托Meta公司开发的Llama 3.1系列大语言模型。该数据集聚焦于机器创造性写作这一前沿领域，旨在探索生成式人工智能在叙事构建与文学创作中的潜力。通过系统化生成短篇故事文本，它为计算语言学与数字人文研究的交叉提供了重要资源，推动了生成文本质量评估、创作风格仿效及叙事连贯性分析等多维度研究的发展。

当前挑战

该数据集需解决生成文本在叙事结构完整性和文学性表现上的核心挑战，包括逻辑连贯性维持、情感深度渲染及原创性保证等问题。构建过程中面临提示工程优化难题，如目标字数控制失效导致文本长度偏差；同时需克服模型固有倾向产生的套路化表达，并确保生成内容符合伦理规范。合成数据的真实性验证与艺术价值评估亦构成显著挑战。

常用场景

经典使用场景

在创意写作研究领域，该数据集为文本生成模型的叙事能力评估提供了标准化素材。研究者通过分析这些AI生成的短篇故事，能够系统评估模型在情节构建、情感表达和文学风格一致性方面的表现，为计算创造力研究建立可量化的基准框架。

实际应用

在教育科技领域，这些AI生成的短篇故事可作为创意写作课程的辅助教学材料，帮助学生识别模式化叙事结构。出版行业利用其分析主流叙事范式，媒体内容创作者则借助其研究受众偏好的故事元素，优化内容生产策略。

衍生相关工作

基于该数据集衍生了多项重要研究，包括叙事结构自动分析工具开发、生成文本水印检测技术改进，以及人工智能写作风格迁移模型训练。这些工作显著推进了合成文本检测领域的发展，并为创造性人工智能的评估方法论奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集