adamo1139/AEZAKMI_v3
收藏Hugging Face2024-02-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/adamo1139/AEZAKMI_v3
下载链接
链接失效反馈官方服务:
资源简介:
AEZAKMI V3数据集是基于AEZAKMI V2构建的,增加了许多新的样本。移除了所有编码样本和包含BEGINCONTEXT ENDCONTEXT References:的样本,以避免训练时的序列长度问题。添加了过滤后的no_robots_sharegpt数据集,使其仅适用于非商业用途。从no_robots数据集中移除了故事、提及AI、编码等内容。还添加了基于Sentdex/wsb_reddit_v001的wsb数据集,但移除了所有少于300或500字符的样本。最后,移除了所有超过10000字符的样本,以避免训练时引入错误。
AEZAKMI V3数据集是基于AEZAKMI V2构建的,增加了许多新的样本。移除了所有编码样本和包含BEGINCONTEXT ENDCONTEXT References:的样本,以避免训练时的序列长度问题。添加了过滤后的no_robots_sharegpt数据集,使其仅适用于非商业用途。从no_robots数据集中移除了故事、提及AI、编码等内容。还添加了基于Sentdex/wsb_reddit_v001的wsb数据集,但移除了所有少于300或500字符的样本。最后,移除了所有超过10000字符的样本,以避免训练时引入错误。
提供机构:
adamo1139
原始信息汇总
数据集概述
数据集构建
- 基础版本:AEZAKMI V3基于AEZAKMI V2构建,包含许多新样本。
- 样本筛选:移除了所有编程样本以及包含"BEGINCONTEXT ENDCONTEXT References:"的样本,以避免在长序列训练中出现问题。
数据来源与处理
- 非商业用途:包含来自no_robots_sharegpt的过滤数据集,该数据集仅限非商业用途。从no_robots中移除了故事、AI提及、编程等内容。
- wsb数据集:基于Sentdex/wsb_reddit_v001,移除了所有长度小于300或500字符的样本(具体数值未明确)。
样本长度限制
- 长度限制:移除了所有长度超过10000字符的样本,以避免在训练中给予过大权重,防止引入类似编程或特定上下文错误。



