morizon/databricks-dolly-15k-ja
收藏Hugging Face2023-08-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/morizon/databricks-dolly-15k-ja
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-sa-3.0
language:
- ja
---
このデータセットは[kunishou/databricks-dolly-15k-ja](https://huggingface.co/datasets/kunishou/databricks-dolly-15k-ja)を元に作成されています。
また、[databricks-dolly-15k](https://huggingface.co/datasets/databricks/databricks-dolly-15k)の情報も参考にしました。
### 主な修正点
- [databricks-dolly-15k](https://huggingface.co/datasets/databricks/databricks-dolly-15k#dataset-overview)に注意事項として、注釈は削除した方が良いとの以下記載があり、注釈を削除しています。
Reference text (indicated by the `context` field in the actual dataset) may contain bracketed Wikipedia citation numbers (e.g. `[42]`) which we recommend users remove for downstream applications.
なお注釈の削除については、正規表現を用いた修正を行っております。https://github.com/yuichiro2023/normalize_text
- 重複した内容の行が複数あり、削除しました。'instruction','input','output’がすべて一致している場合や'input','output’が一致している場合がありました。
- inputが ”空白” 、outputが ”はあ” となっているデータが複数あり、修正しました。
提供机构:
morizon
原始信息汇总
数据集概述
数据集来源
- 本数据集基于kunishou/databricks-dolly-15k-ja创建。
- 参考了databricks-dolly-15k的信息。
主要修正点
- 根据databricks-dolly-15k的建议,删除了可能影响下游应用的注释。
- 使用正则表达式对文本进行了规范化处理,详见GitHub链接。
- 删除了重复的内容行,确保instruction,input,output完全一致或input,output一致的记录被移除。
- 对输入为空白、输出为特定字符串的记录进行了修正。



