SFT_MixtureOfThoughts
收藏SFT_MixtureOfThoughts 数据集概述
数据集描述
- 包含两个分割(split)的处理后数据:
- MoT_science
- MoT_code
数据格式
- 每个分割提供两种格式:
- JSON格式:位于各分割子文件夹内(如
MoT_code/) - Parquet格式:位于
data/目录下,文件名以分割名作为前缀(如data/MoT_code_*.parquet)
- JSON格式:位于各分割子文件夹内(如
文件结构
SFT_MixtureOfThoughts/ ├── MoT_science/ │ ├── file1.json │ ├── file2.json │ └── ... ├── data/ │ └── MoT_science/ │ ├── file1.parquet │ ├── file2.parquet │ └── ... └── README.md
使用方法
python from datasets import load_dataset
加载特定分割
MoT_science_data = load_dataset("neko-llm/SFT_MixtureOfThoughts", "MoT_science") MoT_code_data = load_dataset("neko-llm/SFT_MixtureOfThoughts", "MoT_code")
手动指定文件加载
dataset = load_dataset( "parquet", data_files={ "MoT_science": "data/MoT_science_.parquet", "MoT_code": "data/MoT_code_.parquet", } )
加载单个文件
import pandas as pd df = pd.read_parquet("data/MoT_science_filename.parquet")
加载特定分割的所有文件
from pathlib import Path split_files = list(Path("data").glob("MoT_science_*.parquet")) for file in split_files: df = pd.read_parquet(file)




