five

JHenzi/BLOOMStories

收藏
Hugging Face2023-06-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/JHenzi/BLOOMStories
下载链接
链接失效反馈
官方服务:
资源简介:
BLOOM Model Stories数据集包含使用BLOOM模型生成的故事,主要使用560m大小的模型生成。数据集旨在帮助理解大型语言模型(如BLOOM)的提示机制。每个Markdown文件包含一个由人类参与生成的故事,模型生成故事片段,用户选择最合适的继续部分。数据集还展示了模型对计算机时钟的感知、对语义相似性的偏好以及对矛盾信息的处理。

BLOOM Model Stories数据集包含使用BLOOM模型生成的故事,主要使用560m大小的模型生成。数据集旨在帮助理解大型语言模型(如BLOOM)的提示机制。每个Markdown文件包含一个由人类参与生成的故事,模型生成故事片段,用户选择最合适的继续部分。数据集还展示了模型对计算机时钟的感知、对语义相似性的偏好以及对矛盾信息的处理。
提供机构:
JHenzi
原始信息汇总

BLOOM Model Stories 数据集概述

数据集基本信息

  • 语言: 英语
  • 名称: BLOOM Model Stories
  • 许可证: bigscience-openrail-m

数据集内容

  • 数据集包含由BLOOM模型生成的故事,主要使用560m大小的模型,部分使用全尺寸模型。
  • 每个Markdown文件包含一个故事,这些故事是在有人工参与的情况下生成的。
  • 模型用于生成故事片段(tokens),用户选择最合理的延续,以保持故事连贯并避免重复。
  • 数据集中存在模型陷入重复和故事不完整的情况。

数据集生成过程

  • 初始故事可能仅有一行或基于新闻头条的生成文本,随着故事的进展,输入张量会根据用户的选择增长。
  • 模型通过不断增长的提示长度进行重复提示,以挑战模型的能力。

模型特性

  • 模型能够根据计算机时钟生成与当前日期相关的文本。
  • 模型在处理语义相似性方面表现出色,特别是在包含经济数据的提示中,会使用经济术语进行文本生成。
  • 模型对矛盾信息的处理不佳,可能会指出故事中的不一致性。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作