Mori-kamiyama/LINE-Reply-gate-dataset
收藏Hugging Face2026-04-01 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/Mori-kamiyama/LINE-Reply-gate-dataset
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- ja
license: other
task_categories:
- text-classification
pretty_name: LINE Reply Gate Dataset
size_categories:
- 1K<n<10K
---
# LINE Reply Gate Dataset
LINE における返信可否と返信タイプの判定を学習・検証するためのデータセットです。
各レコードは、1件の LINE 会話コンテキストを表します。入力は話者ペルソナと会話履歴、出力はその状況で取るべきアクションです。
## Purpose
このデータセットは、以下のような判定タスクを想定しています。
- 返信するべきかを判定する
- 返信ではなく相槌やリアクションで十分かを判定する
- 既読スルーに近い `ignore` を選ぶべき状況を判定する
- 会話履歴とペルソナを使って、返信行動の傾向を分析する
## Record Structure
冗長な raw chat 形式は持たず、学習や分析に必要な要素だけに絞っています。
### Main fields
- `name`
- `age_group`
- `role`
- `personality`
- `line_style`
- `reply_tendency`
- `busy_behavior`
- `awkward_behavior`
- `reaction_style`
- `conversation_turns`: 会話履歴をターン単位で持つ配列
- `num_turns`: 会話ターン数
- `label`: 判定ラベルを表す辞書
- `action`: 主ラベル
- `trigger_type`: 補助ラベル
固定長で扱いやすいペルソナ属性は、ネストせずトップレベル列として保持しています。
### `conversation_turns`
`conversation_turns` は以下の形の配列です。
```json
[
{"time": "08:12", "speaker": "さくら", "text": "おはよう"},
{"time": "08:14", "speaker": "たかし", "text": "おはよう。ゆっくり起きてね。"}
]
```
### `label`
`label` は元のラベル辞書を保持します。通常は以下を含みます。
- `action`
- `trigger_type`
`action` と `trigger_type` は、検索や学習で扱いやすいようにトップレベルにも複製しています。
## Label Semantics
### `action`
- `reply`: 明示的な返信を返すべき状況
- `backchannel`: 短い相槌や軽い反応で十分な状況
- `ignore`: 返信不要、もしくは保留が自然な状況
### `trigger_type`
会話上のきっかけの種別を表します。例:
- `direct_question`
- `ambient_reaction`
- `stall`
## Suggested Uses
- 返信要否の分類モデルの学習
- 会話履歴とペルソナを条件にした行動予測
- ゲーティングモデルの評価用ベンチマーク
- `action` / `trigger_type` の分布分析
## Limitations
- データは実会話ログそのものではなく、生成モデルを用いて構成した学習用データです
- ペルソナ表現や会話文体には生成由来の偏りが含まれる可能性があります
- 会話履歴のパースは現状の書式前提のため、元データのフォーマットが変わると追加整備が必要です
- ラベルは会話状況に対する単一の正解を保証するものではなく、運用文脈によっては別判断もありえます
## Source
このデータセットは `gpt-oss 120b` を用いて作成した学習用データを元に整形しています。
提供机构:
Mori-kamiyama



