five

daichira/structeval-t-sft-hq-yaml-cleaned

收藏
Hugging Face2026-03-22 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/daichira/structeval-t-sft-hq-yaml-cleaned
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - ja - en tags: - structeval-t - yaml - data-cleaning - text-generation license: apache-2.0 task_categories: - text-generation size_categories: - n<3000 --- # StructEval-T SFT HQ YAML (Cleaned) このデータセットは、[daichira/structeval-t-sft-hq-yaml](https://huggingface.co/datasets/daichira/structeval-t-sft-hq-yaml) をベースに、厳密なフォーマット検証とノイズ除去(クリーニング)を行ったものです。 StructEval-T等の構造化データ生成タスク(SFT向け)に最適化されています。 ## クリーニング統計情報 本データセットの構築時に、以下のクリーニング結果が得られました。 * **オリジナルレコード数**: 2000 件 * **クリーニング後レコード数**: 2000 件 * **除去されたCoTノイズ**: 1528 件 ( `Approach: ... Output:` を物理的に切除 ) * **削減された無駄な文字列の総量**: 705728 文字 * **最終YAMLパース成功率**: 100% ## データセット構築パイプライン(クリーニング手法) 1. **不要テキストの物理的除去**: `Approach: ... Output:` といった思考プロセスや、マークダウンのコードフェンス (```yaml) を正規表現で完全に削除しました。 2. **仕様準拠パース検証**: Pythonの `yaml.safe_load` を用いて、全件がYAMLとして構文エラーなく読み込めることを確認しています。 3. **正規化 (Canonicalization)**: 意味的な同一性を担保するため、キーをアルファベット順にソートし、インデントやフォーマットを統一しました (`yaml.safe_dump` を使用)。 4. **完全一致の排除**: 正規化後、プロンプトと出力が完全に一致する重複データを検出し、排除しています。 ## 使い方 ```python from datasets import load_dataset ds = load_dataset("daichira/structeval-t-sft-hq-yaml-cleaned", split="train") print(ds[0]["messages"]) ```
提供机构:
daichira
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作