davanstrien/aud-smollm2-1.7b-20260428

Name: davanstrien/aud-smollm2-1.7b-20260428
Creator: davanstrien
Published: 2026-04-28 13:02:29
License: 暂无描述

Hugging Face2026-04-28 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/davanstrien/aud-smollm2-1.7b-20260428

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是由classify-and-augment工具生成的LLM标注数据集，主要用于分类任务。数据集包含两个标签：positive和negative，其中negative标签有126条真实数据，positive标签有81条数据（54条真实数据和27条合成数据）。数据集使用HuggingFaceTB/SmolLM2-1.7B-Instruct模型进行标注，输入行数为180，输出行数为207。合成数据的接受率为71.9%，即合成候选数据被同一模型重新分类为目标类的比例。

--- tags: - 分类与增强（classify-and-augment） - 大语言模型标注（LLM-annotated） --- # davanstrien/aud-smollm2-1.7b-20260428 本数据集为经大语言模型（LLM）标注的数据集，由[分类与增强（classify-and-augment）](https://github.com/davanstrien/classify-and-augment)工具生成。 ## 数据集配置 - **模型**：`HuggingFaceTB/SmolLM2-1.7B-Instruct` - **标签**：`positive`（正向）、`negative`（负向） - **输入样本量**：180 - **输出样本量**：207 ## 标签分布 | 标签 | 真实样本 | 合成样本 | 总计 | |---|---:|---:|---:| | `negative`（负向） | 126 | 0 | 126 | | `positive`（正向） | 54 | 27 | 81 | ## 合成样本审核 | 类别 | 需生成数 | 已生成数 | 已验证数 | 留存数 | 通过率 | |---|---:|---:|---:|---:|---:| | `positive`（正向） | 46 | 64 | 46 | 27 | 71.9% | 通过率 = 经同一模型重新分类为目标类别的合成候选样本（自一致性检验，参考[Synthetic Imputation（合成插补），arxiv 2504.15160](https://arxiv.org/abs/2504.15160)）。

提供机构：

davanstrien

5,000+

优质数据集

54 个

任务类型

进入经典数据集