weblab-llm-competition-2025-bridge/neko-prelim-wj-vanilla_benign_v2
收藏Hugging Face2025-10-23 更新2026-02-07 收录
下载链接:
https://hf-mirror.com/datasets/weblab-llm-competition-2025-bridge/neko-prelim-wj-vanilla_benign_v2
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: train
data_files: data/train_va_be.parquet
license: odc-by
---
# neko-prelim-wj-vanilla_benign_v2
## データセットの説明
このデータセットは、以下の分割(split)ごとに整理された処理済みデータを含みます。
- **train**: 1 JSON files, 1 Parquet files
## データセット構成
各 split は JSON 形式と Parquet 形式の両方で利用可能です:
- **JSONファイル**: 各 split 用サブフォルダ内の元データ(`train/`)
- **Parquetファイル**: split名をプレフィックスとした最適化データ(`data/train_*.parquet`)
各 JSON ファイルには、同名の split プレフィックス付き Parquet ファイルが対応しており、大規模データセットの効率的な処理が可能です。
## 使い方
```python
from datasets import load_dataset
# 特定の split を読み込む
train_data = load_dataset("weblab-llm-competition-2025-bridge/neko-prelim-wj-vanilla_benign_v2", "train")
# または、data_files を手動で指定して読み込む
dataset = load_dataset(
"parquet",
data_files={
"train": "data/train_*.parquet",
}
)
# 個別のファイルを読み込む
import pandas as pd
df = pd.read_parquet("data/train_filename.parquet")
# Load all files for a specific split
from pathlib import Path
split_files = list(Path("data").glob("train_*.parquet"))
for file in split_files:
df = pd.read_parquet(file)
# Process df...
```
## ファイル構成
```
neko-prelim-wj-vanilla_benign_v2/
├── train/
│ ├── file1.json
│ ├── file2.json
│ └── ...
├── data/
│ └── train/
│ ├── file1.parquet
│ ├── file2.parquet
│ └── ...
└── README.md
```
提供机构:
weblab-llm-competition-2025-bridge



