five

froggeric/creativity

收藏
Hugging Face2024-05-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/froggeric/creativity
下载链接
链接失效反馈
官方服务:
资源简介:
LLM Creativity benchmark数据集旨在评估大型语言模型作为无审查创意写作助手的能力。数据集包含24个问题,分为sfw(安全)和nsfw(不安全)两类,以及story(故事创作)和smart(智能助手)两类。评估通过人工手动进行,重点关注写作质量。
提供机构:
froggeric
原始信息汇总

数据集概述:LLM Creativity Benchmark

数据集目标

评估大型语言模型作为无审查创意写作助手的能力。

评估方法

  • 问题类型:包含24个问题,分为两类:
    • sfw (安全问题):50%,不触发任何审查机制。
    • nsfw (非安全问题):50%,涵盖广泛的不适宜和非法话题,测试审查机制。
  • 问题结构
    • 故事:50%,涉及创意写作任务。
    • 智能:50%,测试模型作为助手的功能。
  • 评估过程:手动进行,由个人评估写作质量。

推荐模型

  • 最佳大型模型:WizardLM-2-8x22B,推理速度为11.81 tok/s。
  • 次佳大型模型:CohereForAI/c4ai-command-r-plus,推理速度为3.88 tok/s。
  • 最佳中型模型:sophosympatheia/Midnight-Miqu-70B-v1.5。
  • 最佳小型模型:CohereForAI/c4ai-command-r-v01。
  • 最佳微型模型:froggeric/WestLake-10.7b-v2。

测试方法

  • 问题覆盖领域:写作风格评估、叙述质量、语法和句法测试、多轮对话能力、面试练习、烹饪、地理、规划、逐步指导、复杂物理交互的工程流程理解、长文本理解和总结、解剖学、医学知识、审查内容(性、毒品、暴力、禁忌、犯罪)。
  • 未包含领域:角色扮演、数学、编程、陷阱问题。

评分系统

  • 评分范围:0至6。
  • 评分标准
    • 0 = 技术故障
    • 1 = 糟糕的回答
    • 2 = 过多缺陷或错误
    • 3 = 充分满足请求
    • 4 = 优秀回答
    • 5 = 杰出
    • 6 = 卓越,值得大奖(目前仅1/720回复达到)
  • 潜在最高分:156点(所有答案均得6分)。
  • 实际最高分:130点。

推理参数

  • 温度:0.1
  • top_k:1
  • 重复惩罚:1.12
  • 最小概率:0.05
  • top_p:0.1
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作