five

grimulkan/bluemoon_Karen_cleaned

收藏
Hugging Face2024-01-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/grimulkan/bluemoon_Karen_cleaned
下载链接
链接失效反馈
官方服务:
资源简介:
这是bluemoon-fandom-1-1-rp-cleaned数据集的进一步清理版本,使用了Karen_TheEditor 13B工具进行清理,并以Fastchat格式呈现。作者尝试修复尽可能多的语法问题,并未删除任何对话,但由于工具的限制,仍存在一些问题。如果检测到与原始文本有较大偏差,作者会回退到标准拼写检查器,并排除估计的专有名词。作者将此视为初步尝试,主要用于测试自动化清理语言数据集的方法,但未进行更深入的工作。尽管如此,该版本可能比大多数其他版本更好。

这是bluemoon-fandom-1-1-rp-cleaned数据集的进一步清理版本,使用了Karen_TheEditor 13B工具进行清理,并以Fastchat格式呈现。作者尝试修复尽可能多的语法问题,并未删除任何对话,但由于工具的限制,仍存在一些问题。如果检测到与原始文本有较大偏差,作者会回退到标准拼写检查器,并排除估计的专有名词。作者将此视为初步尝试,主要用于测试自动化清理语言数据集的方法,但未进行更深入的工作。尽管如此,该版本可能比大多数其他版本更好。
提供机构:
grimulkan
原始信息汇总

数据集概述

数据集版本

数据处理

  • 使用Karen_TheEditor 13B进行清理,采用Fastchat格式。
  • 尝试修复了大部分语法问题,未删除任何对话。
  • 对于修正后与原文偏离较大的情况,采用标准拼写检查器处理,排除了估计的专有名词。

数据集目的

  • 主要用于测试自动化清理语言数据集的方法。
  • 目前版本可能优于其他版本。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作