deltacore/trec-ja

Name: deltacore/trec-ja
Creator: deltacore
Published: 2024-10-16 16:55:21
License: 暂无描述

Hugging Face2024-10-16 更新2025-11-01 收录

下载链接：

https://hf-mirror.com/datasets/deltacore/trec-ja

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: cc-by-sa-4.0 --- # 日本語TRECライクな質問分類データセット ## 概要 - [trec-ja.json](./trec-ja.json) このデータセットは、日本語の質問文とその分類ラベルを含む、TRECデータセットを模した質問分類用のデータセットです。日本の文化や地理に関連する質問を含み、自然言語処理や機械学習のタスクに適しています。 ## データセットの特徴 - 質問数: 535 - 言語: 日本語 - 粗粒度ラベル数: 6 - 細粒度ラベル数: 50 ## データ構造各データポイントは以下の構造を持っています： ```json { "text": "質問文", "coarse_label": 粗粒度ラベル（整数）, "fine_label": 細粒度ラベル（整数） } ``` ### ラベルの説明 #### 粗粒度ラベル - 0: 略語 (ABBR) - 1: エンティティ (ENTY) - 2: 説明 (DESC) - 3: 人物 (HUM) - 4: 場所 (LOC) - 5: 数値 (NUM) #### 細粒度ラベル細粒度ラベルは0から49までの整数で表現されており、各粗粒度カテゴリの下に複数の細粒度カテゴリが存在します。例えば： - 0: ABBR:abb（略語） - 2: ENTY:animal（動物） - 24: DESC:def（定義） - 29: HUM:ind（個人） - 32: LOC:city（都市） - 38: NUM:count（数） ## 使用例このデータセットは以下のようなタスクに使用できます： 1. 質問分類モデルの訓練と評価 2. 日本語自然言語処理システムの開発 3. 質問応答システムの構築 4. テキスト分類アルゴリズムのベンチマーク ## データの読み込み方法 Pythonを使用してデータを読み込む例： ```python import json with open('japanese_trec_dataset.json', 'r', encoding='utf-8') as f: data = json.load(f) for item in data: print(f"質問: {item['text']}") print(f"粗粒度ラベル: {item['coarse_label']}") print(f"細粒度ラベル: {item['fine_label']}") print("---") ``` ## 注意事項 1. このデータセットは教育および研究目的で作成されました。実際のアプリケーションに使用する場合は、さらなるデータの拡張や検証が必要です。 2. データセットには日本の文化や地理に関する質問が含まれていますが、網羅的ではありません。 3. ラベルの割り当ては主観的な判断に基づいている場合があり、異なる解釈の余地があります。 ## ライセンスこのデータセットは[CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0/)ライセンスの下で公開されています。 ## 謝辞このデータセットは、オリジナルのTRECデータセットを参考に作成されました。日本語の質問と文脈に合わせて新たに作成されたものです。 ## 連絡先このデータセットに関するご質問やフィードバックがありましたら、日本テクノトレード株式会社(contact@techno-trade.jp)までお問い合わせください。

提供机构：

deltacore

5,000+

优质数据集

54 个

任务类型

进入经典数据集