five

davanstrien/aud-smollm2-1.7b-20260428

收藏
Hugging Face2026-04-28 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/davanstrien/aud-smollm2-1.7b-20260428
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是由classify-and-augment工具生成的LLM标注数据集,主要用于分类任务。数据集包含两个标签:positive和negative,其中negative标签有126条真实数据,positive标签有81条数据(54条真实数据和27条合成数据)。数据集使用HuggingFaceTB/SmolLM2-1.7B-Instruct模型进行标注,输入行数为180,输出行数为207。合成数据的接受率为71.9%,即合成候选数据被同一模型重新分类为目标类的比例。

--- tags: - 分类与增强(classify-and-augment) - 大语言模型标注(LLM-annotated) --- # davanstrien/aud-smollm2-1.7b-20260428 本数据集为经大语言模型(LLM)标注的数据集,由[分类与增强(classify-and-augment)](https://github.com/davanstrien/classify-and-augment)工具生成。 ## 数据集配置 - **模型**:`HuggingFaceTB/SmolLM2-1.7B-Instruct` - **标签**:`positive`(正向)、`negative`(负向) - **输入样本量**:180 - **输出样本量**:207 ## 标签分布 | 标签 | 真实样本 | 合成样本 | 总计 | |---|---:|---:|---:| | `negative`(负向) | 126 | 0 | 126 | | `positive`(正向) | 54 | 27 | 81 | ## 合成样本审核 | 类别 | 需生成数 | 已生成数 | 已验证数 | 留存数 | 通过率 | |---|---:|---:|---:|---:|---:| | `positive`(正向) | 46 | 64 | 46 | 27 | 71.9% | 通过率 = 经同一模型重新分类为目标类别的合成候选样本(自一致性检验,参考[Synthetic Imputation(合成插补),arxiv 2504.15160](https://arxiv.org/abs/2504.15160))。
提供机构:
davanstrien
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作