JHenzi/BLOOMStories
收藏Hugging Face2023-06-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/JHenzi/BLOOMStories
下载链接
链接失效反馈官方服务:
资源简介:
BLOOM Model Stories数据集包含使用BLOOM模型生成的故事,主要使用560m大小的模型生成。数据集旨在帮助理解大型语言模型(如BLOOM)的提示机制。每个Markdown文件包含一个由人类参与生成的故事,模型生成故事片段,用户选择最合适的继续部分。数据集还展示了模型对计算机时钟的感知、对语义相似性的偏好以及对矛盾信息的处理。
BLOOM Model Stories数据集包含使用BLOOM模型生成的故事,主要使用560m大小的模型生成。数据集旨在帮助理解大型语言模型(如BLOOM)的提示机制。每个Markdown文件包含一个由人类参与生成的故事,模型生成故事片段,用户选择最合适的继续部分。数据集还展示了模型对计算机时钟的感知、对语义相似性的偏好以及对矛盾信息的处理。
提供机构:
JHenzi
原始信息汇总
BLOOM Model Stories 数据集概述
数据集基本信息
- 语言: 英语
- 名称: BLOOM Model Stories
- 许可证: bigscience-openrail-m
数据集内容
- 数据集包含由BLOOM模型生成的故事,主要使用560m大小的模型,部分使用全尺寸模型。
- 每个Markdown文件包含一个故事,这些故事是在有人工参与的情况下生成的。
- 模型用于生成故事片段(tokens),用户选择最合理的延续,以保持故事连贯并避免重复。
- 数据集中存在模型陷入重复和故事不完整的情况。
数据集生成过程
- 初始故事可能仅有一行或基于新闻头条的生成文本,随着故事的进展,输入张量会根据用户的选择增长。
- 模型通过不断增长的提示长度进行重复提示,以挑战模型的能力。
模型特性
- 模型能够根据计算机时钟生成与当前日期相关的文本。
- 模型在处理语义相似性方面表现出色,特别是在包含经济数据的提示中,会使用经济术语进行文本生成。
- 模型对矛盾信息的处理不佳,可能会指出故事中的不一致性。



