weblab-llm-competition-2025-bridge/neko-prelim-wj-vanilla_benign_v2

Name: weblab-llm-competition-2025-bridge/neko-prelim-wj-vanilla_benign_v2
Creator: weblab-llm-competition-2025-bridge
Published: 2025-10-23 02:02:58
License: 暂无描述

Hugging Face2025-10-23 更新2026-02-07 收录

下载链接：

https://hf-mirror.com/datasets/weblab-llm-competition-2025-bridge/neko-prelim-wj-vanilla_benign_v2

下载链接

链接失效反馈

官方服务：

资源简介：

--- configs: - config_name: train data_files: data/train_va_be.parquet license: odc-by --- # neko-prelim-wj-vanilla_benign_v2 ## データセットの説明このデータセットは、以下の分割（split）ごとに整理された処理済みデータを含みます。 - **train**: 1 JSON files, 1 Parquet files ## データセット構成各 split は JSON 形式と Parquet 形式の両方で利用可能です: - **JSONファイル**: 各 split 用サブフォルダ内の元データ（`train/`） - **Parquetファイル**: split名をプレフィックスとした最適化データ（`data/train_*.parquet`）各 JSON ファイルには、同名の split プレフィックス付き Parquet ファイルが対応しており、大規模データセットの効率的な処理が可能です。 ## 使い方 ```python from datasets import load_dataset # 特定の split を読み込む train_data = load_dataset("weblab-llm-competition-2025-bridge/neko-prelim-wj-vanilla_benign_v2", "train") # または、data_files を手動で指定して読み込む dataset = load_dataset( "parquet", data_files={ "train": "data/train_*.parquet", } ) # 個別のファイルを読み込む import pandas as pd df = pd.read_parquet("data/train_filename.parquet") # Load all files for a specific split from pathlib import Path split_files = list(Path("data").glob("train_*.parquet")) for file in split_files: df = pd.read_parquet(file) # Process df... ``` ## ファイル構成 ``` neko-prelim-wj-vanilla_benign_v2/ ├── train/ │ ├── file1.json │ ├── file2.json │ └── ... ├── data/ │ └── train/ │ ├── file1.parquet │ ├── file2.parquet │ └── ... └── README.md ```

提供机构：

weblab-llm-competition-2025-bridge

5,000+

优质数据集

54 个

任务类型

进入经典数据集