five

yadorigi/Onomatopoeia_Dataset

收藏
Hugging Face2026-03-27 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/yadorigi/Onomatopoeia_Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - ja license: apache-2.0 task_categories: - text-generation task_ids: - text2text-generation tags: - onomatopoeia - japanese - audio - manga - multimodal - sound-to-text size_categories: - 10K<n<100K --- 🎧 Onomatopoeia Dataset (Audio → Manga Expression) 音声解析結果をもとに、日本語のオノマトペ(擬音語・擬態語)を生成するためのデータセットです。 本データセットは、音そのものではなく、音から推定された特徴・空間・情景を入力とする構造化データであり、 漫画的な表現生成を目的としたマルチモーダルデータです。 --- 📌 Dataset Summary 本データセットは以下のパイプラインから生成されています: Audio ↓ Audio Features (04_features.json) ↓ Audio Events (05_audio_events.json) ↓ Space Judgement (06_space_judgement.json) ↓ Scene Interpretation (07_scene_interpretation.json) ↓ Onomatopoeia (08_onomatopoeia.json) 👉 音 → 空間 → 情景 → オノマトペ という段階的生成構造を持ちます。 --- 📊 Dataset Structure データ形式 JSON形式で構成されています。 { "event": "water", "family": "water", "space": "river_side", "intensity": "soft", "mood": "calm", "onomatopoeia": "サーッ" } --- 主なカラム Column| Description event| 音イベント(PANNsによる推定) family| イベント分類(rule-based) space| 空間ラベル(CLAP + ルール) intensity| 音の強さ(rmsベース) mood| シーン雰囲気(ルール推定) onomatopoeia| 日本語オノマトペ --- 🔢 Dataset Size - 約10,000サンプル - 各サンプルは1つの音環境を表現 --- 🏗 Data Creation 生成方法 本データセットは以下の自動処理によって生成されています: 1. 音声から音響特徴を抽出(librosa) 2. 音イベントを検出(PANNs) 3. 空間類似度を計算(CLAP) 4. 空間ラベルを決定(rule-based) 5. シーンを解釈(LLM / ルール) 6. オノマトペを生成(LoRA + ルール) 👉 完全に自動生成されたデータセットです --- 前処理 - 音イベントラベルの正規化 - 空間ラベルの統一 - オノマトペの表記ゆれ補正 - 不正出力(空文字・異常記号)の除外 --- 🎯 Intended Use 主な用途 - オノマトペ生成モデルの学習 - 日本語擬音語生成 - 漫画生成AI - 音→テキスト変換の研究 --- Downstream Tasks - Multimodal Generation - Audio → Text Expression - Creative AI --- 🚫 Out-of-Scope Use 以下は対象外です: - 音の正確な分類(classification用途) - 医療・監視用途 - 客観的な環境認識 - 英語など他言語生成 --- ⚠️ Limitations - 空間推定が曖昧になる場合がある(mixed_ambiguous) - 同一音でも複数の解釈が存在する - 生成データのためノイズを含む可能性あり - コンテキスト依存性が高い --- 🧠 Bias - 日本語漫画文化に依存 - 誇張表現を含む - 現実音との1対1対応ではない --- 🔁 Relation to Model 本データセットは以下のモデルの学習に使用されています: 👉 https://huggingface.co/yadorigi/onomatopoeia-lora --- 🧪 Evaluation Notes - 人手評価(自然さ) - コンテキスト整合性 - LLMによる自己検証 👉 定量評価ではなく、表現品質を重視 --- 📜 License Apache-2.0 --- 📚 Citation @dataset{yadorigi_onomatopoeia_dataset, title={Onomatopoeia Dataset (Audio → Manga Expression)}, author={yadorigi team}, year={2026}, publisher={Hugging Face} } --- ✨ Summary 本データセットは、 👉 音 → 空間 → 情景 → 表現 をつなぐための 生成型マルチモーダルデータセットです。 ## Related Model https://huggingface.co/yadorigi/onomatopoeia-lora
提供机构:
yadorigi
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作