daichira/structeval-t-sft-hq-yaml-cleaned
收藏Hugging Face2026-03-22 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/daichira/structeval-t-sft-hq-yaml-cleaned
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- ja
- en
tags:
- structeval-t
- yaml
- data-cleaning
- text-generation
license: apache-2.0
task_categories:
- text-generation
size_categories:
- n<3000
---
# StructEval-T SFT HQ YAML (Cleaned)
このデータセットは、[daichira/structeval-t-sft-hq-yaml](https://huggingface.co/datasets/daichira/structeval-t-sft-hq-yaml) をベースに、厳密なフォーマット検証とノイズ除去(クリーニング)を行ったものです。
StructEval-T等の構造化データ生成タスク(SFT向け)に最適化されています。
## クリーニング統計情報
本データセットの構築時に、以下のクリーニング結果が得られました。
* **オリジナルレコード数**: 2000 件
* **クリーニング後レコード数**: 2000 件
* **除去されたCoTノイズ**: 1528 件 ( `Approach: ... Output:` を物理的に切除 )
* **削減された無駄な文字列の総量**: 705728 文字
* **最終YAMLパース成功率**: 100%
## データセット構築パイプライン(クリーニング手法)
1. **不要テキストの物理的除去**: `Approach: ... Output:` といった思考プロセスや、マークダウンのコードフェンス (```yaml) を正規表現で完全に削除しました。
2. **仕様準拠パース検証**: Pythonの `yaml.safe_load` を用いて、全件がYAMLとして構文エラーなく読み込めることを確認しています。
3. **正規化 (Canonicalization)**: 意味的な同一性を担保するため、キーをアルファベット順にソートし、インデントやフォーマットを統一しました (`yaml.safe_dump` を使用)。
4. **完全一致の排除**: 正規化後、プロンプトと出力が完全に一致する重複データを検出し、排除しています。
## 使い方
```python
from datasets import load_dataset
ds = load_dataset("daichira/structeval-t-sft-hq-yaml-cleaned", split="train")
print(ds[0]["messages"])
```
提供机构:
daichira



