five

k0ndra/imatrix_ja-en

收藏
Hugging Face2026-03-27 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/k0ndra/imatrix_ja-en
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-sa-4.0 language: - ja - en tags: - imatrix - calibration - llm - gguf pretty_name: Japanese-English imatrix Calibration Data size_categories: - 1K<n<10K --- # Japanese-English imatrix Calibration Data imatrix(importance matrix)計算用のキャリブレーションデータです。 日本語LLMのGGUF量子化品質向上を目的として作成しました。 本データセットは下記「ライセンス」欄に記載したデータセット群から派生した二次的著作物です。 ## 構成 | カテゴリ | 割合 | 内容 | |---|---|---| | ja_general | 35% | 日本語一般文章 | | ja_qa | 20% | 日本語Q&A・対話 | | ja_technical | 10% | 日本語技術・学術文 | | code | 15% | プログラムコード | | en_reasoning | 15% | 英語推論・知識文 | | structured | 5% | SQL・構造化データ | - 目標トークン数/チャンク: 512 ## ファイル | ファイル | チャンク数 | 用途 | |---|---|---| | `imatrix_ja-en_500_shuffled.txt` | 500 | チャンクをシャッフル済み(推奨) | | `imatrix_ja-en_500_raw.txt` | 500 | カテゴリ順 | | `imatrix_ja-en_1000_shuffled.txt` | 1,000 | チャンクをシャッフル済み(推奨) | | `imatrix_ja-en_1000_raw.txt` | 1,000 | カテゴリ順 | | `imatrix_ja-en_2000_shuffled.txt` | 2,000 | チャンクをシャッフル済み(推奨) | | `imatrix_ja-en_2000_raw.txt` | 2,000 | カテゴリ順 | ※ 余談ですが、本当にシャッフルした方が良いのかは定かではありません。一種のおまじないです。ちなみに _raw 版はカテゴリ順(日本語→英語)に並んでいますが、「英語→日本語の順で読ませた方が良い」という説もあります。 ### トークン統計 | 取得済みチャンク総数 | 推定総トークン数 | チャンク平均トークン | |---|---|---| | 500 | 283,336 (0.28M) | 566 | | 1,000 | 571,187 (0.57M) | 571 | | 2,000 | 1,140,364 (1.14M) | 570 | ## ライセンス 本データセット全体は **CC BY-SA 4.0** のもとで公開されています。 CC BY-SA 4.0 のライセンス全文: [https://creativecommons.org/licenses/by-sa/4.0/](https://creativecommons.org/licenses/by-sa/4.0/) 本データセットは複数のソースから派生した二次的著作物であり、各ソース素材には元のライセンスが引き続き適用されます。本データセットの利用者は、CC BY-SA 4.0 の条件に加え、各ソースの元ライセンスの条件(著作権表示の保持等)も遵守する必要があります。 ### 使用したデータセットと帰属 以下は本データセットの生成に実際に使用したソースの一覧です。 | データセット | ライセンス | 使用カテゴリ | |---|---|---| | [wikimedia/wikipedia](https://huggingface.co/datasets/wikimedia/wikipedia) (20231101.ja) | [CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0/) | ja_general, ja_technical | | [wikimedia/wikipedia](https://huggingface.co/datasets/wikimedia/wikipedia) (20231101.en) | [CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0/) | en_reasoning | | [kunishou/databricks-dolly-15k-ja](https://huggingface.co/datasets/kunishou/databricks-dolly-15k-ja) | [CC BY-SA 3.0](https://creativecommons.org/licenses/by-sa/3.0/) | ja_qa | | [llm-jp/oasst2-33k-ja](https://huggingface.co/datasets/llm-jp/oasst2-33k-ja) | [Apache 2.0](https://www.apache.org/licenses/LICENSE-2.0) | ja_qa | | [deepmind/code_contests](https://huggingface.co/datasets/deepmind/code_contests) | [CC BY 4.0](https://creativecommons.org/licenses/by/4.0/) | code | | [google-research-datasets/mbpp](https://huggingface.co/datasets/google-research-datasets/mbpp) | [CC BY 4.0](https://creativecommons.org/licenses/by/4.0/) | code | | [b-mc2/sql-create-context](https://huggingface.co/datasets/b-mc2/sql-create-context) | [CC BY 4.0](https://creativecommons.org/licenses/by/4.0/) | structured | ### ライセンス構造の説明 本データセットは以下の構造で公開されています。 - **CC BY-SA 系素材**(Wikipedia, databricks-dolly-15k-ja)および **CC BY 素材**(code_contests, mbpp, sql-create-context)から派生した部分: CC BY-SA 4.0 が適用されます。CC BY 4.0 は CC BY-SA 4.0 と互換であり、CC BY-SA 4.0 の派生物として公開できます。 - **Apache 2.0 素材**(oasst2-33k-ja)から取り込んだ部分: Apache 2.0 は派生物への CC BY-SA 4.0 適用を禁止しませんが、元のライセンスの条件(著作権表示の保持等)は引き続き有効です。 - **データセット作成者自身の貢献部分**(選択・配置・加工等): CC BY-SA 4.0 で提供されます。 利用者は CC BY-SA 4.0 の条件を遵守することで本データセット全体を利用できますが、Apache 2.0 由来の部分については元ライセンスの著作権表示を保持してください。 ### CC BY-SA 3.0 → 4.0 について databricks-dolly-15k-ja のライセンスである CC BY-SA 3.0 は、CC BY-SA 4.0 との互換性が Creative Commons によって認められており、CC BY-SA 4.0 の派生物として公開することが可能です。 参照: [https://creativecommons.org/share-your-work/licensing-considerations/compatible-licenses/](https://creativecommons.org/share-your-work/licensing-considerations/compatible-licenses/) ### 著作権表示 (Copyright Notices) 以下のライセンスは著作権表示の保持を条件としています。 #### Wikipedia (CC BY-SA 4.0) - **wikimedia/wikipedia 20231101.ja**: © Wikipedia contributors — [https://ja.wikipedia.org/](https://ja.wikipedia.org/) - **wikimedia/wikipedia 20231101.en**: © Wikipedia contributors — [https://en.wikipedia.org/](https://en.wikipedia.org/) CC BY-SA 4.0 の条件に基づき、原著作者のクレジットを表示します。各記事の著作権は各執筆者に帰属します。 #### kunishou/databricks-dolly-15k-ja (CC BY-SA 3.0) - Copyright Kunishou — [https://huggingface.co/datasets/kunishou/databricks-dolly-15k-ja](https://huggingface.co/datasets/kunishou/databricks-dolly-15k-ja) 上流データセット: - [databricks/databricks-dolly-15k](https://huggingface.co/datasets/databricks/databricks-dolly-15k) — CC BY-SA 3.0, Copyright Databricks, Inc. #### deepmind/code_contests (CC BY 4.0) - Copyright DeepMind — [https://huggingface.co/datasets/deepmind/code_contests](https://huggingface.co/datasets/deepmind/code_contests) #### google-research-datasets/mbpp (CC BY 4.0) - Copyright Google LLC — [https://huggingface.co/datasets/google-research-datasets/mbpp](https://huggingface.co/datasets/google-research-datasets/mbpp) #### b-mc2/sql-create-context (CC BY 4.0) - [https://huggingface.co/datasets/b-mc2/sql-create-context](https://huggingface.co/datasets/b-mc2/sql-create-context) #### Apache License 2.0 - **llm-jp/oasst2-33k-ja**: Copyright LLM-jp Contributors — Apache License 2.0 上流データセット: - [kunishou/oasst2-135k-ja](https://huggingface.co/datasets/kunishou/oasst2-135k-ja) — OpenAssistant/oasst2 の DeepL 日本語翻訳 - [OpenAssistant/oasst2](https://huggingface.co/datasets/OpenAssistant/oasst2) — Apache License 2.0, Copyright LAION-AI / OpenAssistant Contributors Apache License 2.0 の全文は [https://www.apache.org/licenses/LICENSE-2.0](https://www.apache.org/licenses/LICENSE-2.0) を参照してください。
提供机构:
k0ndra
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作