yadorigi/Onomatopoeia_Dataset

Name: yadorigi/Onomatopoeia_Dataset
Creator: yadorigi
Published: 2026-03-27 07:48:28
License: 暂无描述

Hugging Face2026-03-27 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/yadorigi/Onomatopoeia_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - ja license: apache-2.0 task_categories: - text-generation task_ids: - text2text-generation tags: - onomatopoeia - japanese - audio - manga - multimodal - sound-to-text size_categories: - 10K<n<100K --- 🎧 Onomatopoeia Dataset (Audio → Manga Expression) 音声解析結果をもとに、日本語のオノマトペ（擬音語・擬態語）を生成するためのデータセットです。本データセットは、音そのものではなく、音から推定された特徴・空間・情景を入力とする構造化データであり、漫画的な表現生成を目的としたマルチモーダルデータです。 --- 📌 Dataset Summary 本データセットは以下のパイプラインから生成されています： Audio ↓ Audio Features (04_features.json) ↓ Audio Events (05_audio_events.json) ↓ Space Judgement (06_space_judgement.json) ↓ Scene Interpretation (07_scene_interpretation.json) ↓ Onomatopoeia (08_onomatopoeia.json) 👉 音 → 空間 → 情景 → オノマトペという段階的生成構造を持ちます。 --- 📊 Dataset Structure データ形式 JSON形式で構成されています。 { "event": "water", "family": "water", "space": "river_side", "intensity": "soft", "mood": "calm", "onomatopoeia": "サーッ" } --- 主なカラム Column| Description event| 音イベント（PANNsによる推定） family| イベント分類（rule-based） space| 空間ラベル（CLAP + ルール） intensity| 音の強さ（rmsベース） mood| シーン雰囲気（ルール推定） onomatopoeia| 日本語オノマトペ --- 🔢 Dataset Size - 約10,000サンプル - 各サンプルは1つの音環境を表現 --- 🏗 Data Creation 生成方法本データセットは以下の自動処理によって生成されています： 1. 音声から音響特徴を抽出（librosa） 2. 音イベントを検出（PANNs） 3. 空間類似度を計算（CLAP） 4. 空間ラベルを決定（rule-based） 5. シーンを解釈（LLM / ルール） 6. オノマトペを生成（LoRA + ルール） 👉 完全に自動生成されたデータセットです --- 前処理 - 音イベントラベルの正規化 - 空間ラベルの統一 - オノマトペの表記ゆれ補正 - 不正出力（空文字・異常記号）の除外 --- 🎯 Intended Use 主な用途 - オノマトペ生成モデルの学習 - 日本語擬音語生成 - 漫画生成AI - 音→テキスト変換の研究 --- Downstream Tasks - Multimodal Generation - Audio → Text Expression - Creative AI --- 🚫 Out-of-Scope Use 以下は対象外です： - 音の正確な分類（classification用途） - 医療・監視用途 - 客観的な環境認識 - 英語など他言語生成 --- ⚠️ Limitations - 空間推定が曖昧になる場合がある（mixed_ambiguous） - 同一音でも複数の解釈が存在する - 生成データのためノイズを含む可能性あり - コンテキスト依存性が高い --- 🧠 Bias - 日本語漫画文化に依存 - 誇張表現を含む - 現実音との1対1対応ではない --- 🔁 Relation to Model 本データセットは以下のモデルの学習に使用されています： 👉 https://huggingface.co/yadorigi/onomatopoeia-lora --- 🧪 Evaluation Notes - 人手評価（自然さ） - コンテキスト整合性 - LLMによる自己検証 👉 定量評価ではなく、表現品質を重視 --- 📜 License Apache-2.0 --- 📚 Citation @dataset{yadorigi_onomatopoeia_dataset, title={Onomatopoeia Dataset (Audio → Manga Expression)}, author={yadorigi team}, year={2026}, publisher={Hugging Face} } --- ✨ Summary 本データセットは、 👉 音 → 空間 → 情景 → 表現をつなぐための生成型マルチモーダルデータセットです。 ## Related Model https://huggingface.co/yadorigi/onomatopoeia-lora

提供机构：

yadorigi

5,000+

优质数据集

54 个

任务类型

进入经典数据集