five

morizon/databricks-dolly-15k-ja

收藏
Hugging Face2023-08-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/morizon/databricks-dolly-15k-ja
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-sa-3.0 language: - ja --- このデータセットは[kunishou/databricks-dolly-15k-ja](https://huggingface.co/datasets/kunishou/databricks-dolly-15k-ja)を元に作成されています。 また、[databricks-dolly-15k](https://huggingface.co/datasets/databricks/databricks-dolly-15k)の情報も参考にしました。 ### 主な修正点 - [databricks-dolly-15k](https://huggingface.co/datasets/databricks/databricks-dolly-15k#dataset-overview)に注意事項として、注釈は削除した方が良いとの以下記載があり、注釈を削除しています。 Reference text (indicated by the `context` field in the actual dataset) may contain bracketed Wikipedia citation numbers (e.g. `[42]`) which we recommend users remove for downstream applications. なお注釈の削除については、正規表現を用いた修正を行っております。https://github.com/yuichiro2023/normalize_text - 重複した内容の行が複数あり、削除しました。'instruction','input','output’がすべて一致している場合や'input','output’が一致している場合がありました。 - inputが ”空白” 、outputが ”はあ” となっているデータが複数あり、修正しました。
提供机构:
morizon
原始信息汇总

数据集概述

数据集来源

主要修正点

  • 根据databricks-dolly-15k的建议,删除了可能影响下游应用的注释。
  • 使用正则表达式对文本进行了规范化处理,详见GitHub链接
  • 删除了重复的内容行,确保instruction,input,output完全一致或input,output一致的记录被移除。
  • 对输入为空白、输出为特定字符串的记录进行了修正。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作