five

deltacore/trec-ja

收藏
Hugging Face2024-10-16 更新2025-11-01 收录
下载链接:
https://hf-mirror.com/datasets/deltacore/trec-ja
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-sa-4.0 --- # 日本語TRECライクな質問分類データセット ## 概要 - [trec-ja.json](./trec-ja.json) このデータセットは、日本語の質問文とその分類ラベルを含む、TRECデータセットを模した質問分類用のデータセットです。日本の文化や地理に関連する質問を含み、自然言語処理や機械学習のタスクに適しています。 ## データセットの特徴 - 質問数: 535 - 言語: 日本語 - 粗粒度ラベル数: 6 - 細粒度ラベル数: 50 ## データ構造 各データポイントは以下の構造を持っています: ```json { "text": "質問文", "coarse_label": 粗粒度ラベル(整数), "fine_label": 細粒度ラベル(整数) } ``` ### ラベルの説明 #### 粗粒度ラベル - 0: 略語 (ABBR) - 1: エンティティ (ENTY) - 2: 説明 (DESC) - 3: 人物 (HUM) - 4: 場所 (LOC) - 5: 数値 (NUM) #### 細粒度ラベル 細粒度ラベルは0から49までの整数で表現されており、各粗粒度カテゴリの下に複数の細粒度カテゴリが存在します。例えば: - 0: ABBR:abb(略語) - 2: ENTY:animal(動物) - 24: DESC:def(定義) - 29: HUM:ind(個人) - 32: LOC:city(都市) - 38: NUM:count(数) ## 使用例 このデータセットは以下のようなタスクに使用できます: 1. 質問分類モデルの訓練と評価 2. 日本語自然言語処理システムの開発 3. 質問応答システムの構築 4. テキスト分類アルゴリズムのベンチマーク ## データの読み込み方法 Pythonを使用してデータを読み込む例: ```python import json with open('japanese_trec_dataset.json', 'r', encoding='utf-8') as f: data = json.load(f) for item in data: print(f"質問: {item['text']}") print(f"粗粒度ラベル: {item['coarse_label']}") print(f"細粒度ラベル: {item['fine_label']}") print("---") ``` ## 注意事項 1. このデータセットは教育および研究目的で作成されました。実際のアプリケーションに使用する場合は、さらなるデータの拡張や検証が必要です。 2. データセットには日本の文化や地理に関する質問が含まれていますが、網羅的ではありません。 3. ラベルの割り当ては主観的な判断に基づいている場合があり、異なる解釈の余地があります。 ## ライセンス このデータセットは[CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0/)ライセンスの下で公開されています。 ## 謝辞 このデータセットは、オリジナルのTRECデータセットを参考に作成されました。日本語の質問と文脈に合わせて新たに作成されたものです。 ## 連絡先 このデータセットに関するご質問やフィードバックがありましたら、日本テクノトレード株式会社(contact@techno-trade.jp)までお問い合わせください。
提供机构:
deltacore
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作