inoculation-midtraining-mixes
收藏Hugging Face2026-03-17 更新2026-03-20 收录
下载链接:
https://huggingface.co/datasets/geodesic-research/inoculation-midtraining-mixes
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个配置,每个配置具有相同的特征结构,包括文本内容、类型、源行索引、自定义ID、排名、实验和单词计数等字段。数据集规模较大,不同配置的训练集样本数量从469,000到4,056,000不等,数据量从2.8GB到20.2GB不等。所有配置均为纯文本数据,适用于自然语言处理任务,如文本分类、信息检索或实验性研究。具体配置包括不良医疗、极限运动、风险金融等多个领域,可能用于特定领域的文本分析或模型训练。
创建时间:
2026-03-03



