deltacore/trec-ja
收藏Hugging Face2024-10-16 更新2025-11-01 收录
下载链接:
https://hf-mirror.com/datasets/deltacore/trec-ja
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-sa-4.0
---
# 日本語TRECライクな質問分類データセット
## 概要
- [trec-ja.json](./trec-ja.json)
このデータセットは、日本語の質問文とその分類ラベルを含む、TRECデータセットを模した質問分類用のデータセットです。日本の文化や地理に関連する質問を含み、自然言語処理や機械学習のタスクに適しています。
## データセットの特徴
- 質問数: 535
- 言語: 日本語
- 粗粒度ラベル数: 6
- 細粒度ラベル数: 50
## データ構造
各データポイントは以下の構造を持っています:
```json
{
"text": "質問文",
"coarse_label": 粗粒度ラベル(整数),
"fine_label": 細粒度ラベル(整数)
}
```
### ラベルの説明
#### 粗粒度ラベル
- 0: 略語 (ABBR)
- 1: エンティティ (ENTY)
- 2: 説明 (DESC)
- 3: 人物 (HUM)
- 4: 場所 (LOC)
- 5: 数値 (NUM)
#### 細粒度ラベル
細粒度ラベルは0から49までの整数で表現されており、各粗粒度カテゴリの下に複数の細粒度カテゴリが存在します。例えば:
- 0: ABBR:abb(略語)
- 2: ENTY:animal(動物)
- 24: DESC:def(定義)
- 29: HUM:ind(個人)
- 32: LOC:city(都市)
- 38: NUM:count(数)
## 使用例
このデータセットは以下のようなタスクに使用できます:
1. 質問分類モデルの訓練と評価
2. 日本語自然言語処理システムの開発
3. 質問応答システムの構築
4. テキスト分類アルゴリズムのベンチマーク
## データの読み込み方法
Pythonを使用してデータを読み込む例:
```python
import json
with open('japanese_trec_dataset.json', 'r', encoding='utf-8') as f:
data = json.load(f)
for item in data:
print(f"質問: {item['text']}")
print(f"粗粒度ラベル: {item['coarse_label']}")
print(f"細粒度ラベル: {item['fine_label']}")
print("---")
```
## 注意事項
1. このデータセットは教育および研究目的で作成されました。実際のアプリケーションに使用する場合は、さらなるデータの拡張や検証が必要です。
2. データセットには日本の文化や地理に関する質問が含まれていますが、網羅的ではありません。
3. ラベルの割り当ては主観的な判断に基づいている場合があり、異なる解釈の余地があります。
## ライセンス
このデータセットは[CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0/)ライセンスの下で公開されています。
## 謝辞
このデータセットは、オリジナルのTRECデータセットを参考に作成されました。日本語の質問と文脈に合わせて新たに作成されたものです。
## 連絡先
このデータセットに関するご質問やフィードバックがありましたら、日本テクノトレード株式会社(contact@techno-trade.jp)までお問い合わせください。
提供机构:
deltacore



