JHenzi/BLOOMStories

Name: JHenzi/BLOOMStories
Creator: JHenzi
Published: 2023-06-22 15:33:36
License: 暂无描述

Hugging Face2023-06-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/JHenzi/BLOOMStories

下载链接

链接失效反馈

官方服务：

资源简介：

BLOOM Model Stories数据集包含使用BLOOM模型生成的故事，主要使用560m大小的模型生成。数据集旨在帮助理解大型语言模型（如BLOOM）的提示机制。每个Markdown文件包含一个由人类参与生成的故事，模型生成故事片段，用户选择最合适的继续部分。数据集还展示了模型对计算机时钟的感知、对语义相似性的偏好以及对矛盾信息的处理。

提供机构：

JHenzi

原始信息汇总

BLOOM Model Stories 数据集概述

数据集基本信息

语言: 英语
名称: BLOOM Model Stories
许可证: bigscience-openrail-m

数据集内容

数据集包含由BLOOM模型生成的故事，主要使用560m大小的模型，部分使用全尺寸模型。
每个Markdown文件包含一个故事，这些故事是在有人工参与的情况下生成的。
模型用于生成故事片段（tokens），用户选择最合理的延续，以保持故事连贯并避免重复。
数据集中存在模型陷入重复和故事不完整的情况。

数据集生成过程

初始故事可能仅有一行或基于新闻头条的生成文本，随着故事的进展，输入张量会根据用户的选择增长。
模型通过不断增长的提示长度进行重复提示，以挑战模型的能力。

模型特性

模型能够根据计算机时钟生成与当前日期相关的文本。
模型在处理语义相似性方面表现出色，特别是在包含经济数据的提示中，会使用经济术语进行文本生成。
模型对矛盾信息的处理不佳，可能会指出故事中的不一致性。

5,000+

优质数据集

54 个

任务类型

进入经典数据集