five

adamo1139/AEZAKMI_v3

收藏
Hugging Face2024-02-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/adamo1139/AEZAKMI_v3
下载链接
链接失效反馈
官方服务:
资源简介:
AEZAKMI V3数据集是基于AEZAKMI V2构建的,增加了许多新的样本。移除了所有编码样本和包含BEGINCONTEXT ENDCONTEXT References:的样本,以避免训练时的序列长度问题。添加了过滤后的no_robots_sharegpt数据集,使其仅适用于非商业用途。从no_robots数据集中移除了故事、提及AI、编码等内容。还添加了基于Sentdex/wsb_reddit_v001的wsb数据集,但移除了所有少于300或500字符的样本。最后,移除了所有超过10000字符的样本,以避免训练时引入错误。

AEZAKMI V3数据集是基于AEZAKMI V2构建的,增加了许多新的样本。移除了所有编码样本和包含BEGINCONTEXT ENDCONTEXT References:的样本,以避免训练时的序列长度问题。添加了过滤后的no_robots_sharegpt数据集,使其仅适用于非商业用途。从no_robots数据集中移除了故事、提及AI、编码等内容。还添加了基于Sentdex/wsb_reddit_v001的wsb数据集,但移除了所有少于300或500字符的样本。最后,移除了所有超过10000字符的样本,以避免训练时引入错误。
提供机构:
adamo1139
原始信息汇总

数据集概述

数据集构建

  • 基础版本:AEZAKMI V3基于AEZAKMI V2构建,包含许多新样本。
  • 样本筛选:移除了所有编程样本以及包含"BEGINCONTEXT ENDCONTEXT References:"的样本,以避免在长序列训练中出现问题。

数据来源与处理

  • 非商业用途:包含来自no_robots_sharegpt的过滤数据集,该数据集仅限非商业用途。从no_robots中移除了故事、AI提及、编程等内容。
  • wsb数据集:基于Sentdex/wsb_reddit_v001,移除了所有长度小于300或500字符的样本(具体数值未明确)。

样本长度限制

  • 长度限制:移除了所有长度超过10000字符的样本,以避免在训练中给予过大权重,防止引入类似编程或特定上下文错误。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作