MAP-CC|自然语言处理数据集|预训练数据集数据集
收藏数据集概述
数据集名称: CT-LLM
数据集描述: CT-LLM是一个2亿参数的语言模型,专注于中文语言处理。该模型主要使用包含1,200亿令牌的语料库进行训练,其中800亿为中文令牌,300亿为英文令牌,100亿为代码令牌。通过使用中文数据和调整技术,CT-LLM在处理中文语言任务上表现出色,并通过SFT在英文上也表现良好。
数据集组件
-
MAP-CC
- 描述: 一个开放源代码的中文预训练数据集,包含800亿令牌,以及一套详细的清理中文网络语料库的程序。
- 目的: 为自然语言处理社区提供高质量的中文预训练数据和有效的数据准备方法。
-
CHC-Bench
- 描述: 一个精选的多学科中文硬案例指令理解和遵循基准。
- 目的: 用于评估和改进模型在中文复杂案例处理上的能力。
-
CT-LLM
- 描述: 首个以中文为中心的大型语言模型,主要在中文语料库上进行预训练和微调。
- 目的: 提供关于潜在偏见、中文语言能力和多语言适应性的深入见解。
数据处理流程
-
过滤
- 步骤: 使用fasttext模型进行文本过滤。
- 命令示例:
python3 filter/filter.py --input_data input_dir --output_dir output_dir --success_dir success_dir --log_dir log_dir --worker num_worker
-
去重
-
全文本去重
- 命令示例:
python3 deduplication/full_text_dedup/full_text_dedup.py --input_dir input_dir --output_dir output_dir --content_field_name content_field_name
- 命令示例:
-
Minhash LSH去重
- 生成Minhash
- 命令示例:
python3 deduplication/minhash_lsh/generate_minhash.py --input_dir input_dir --output_dir output_dir --workers num_workers --content_field_name content_field_name
- 命令示例:
- 生成重复对
- 命令示例:
python3 deduplication/minhash_lsh/generate_dup_pairs.py --input_dir input_dir --output_dir output_dir
- 命令示例:
- 生成连接组件
- 命令示例:
python3 deduplication/minhash_lsh/generate_connected_components.py --input_dir input_dir --output_file output_file --num_workers num_workers
- 命令示例:
- 生成每个文件的重复行ID
- 命令示例:
python3 deduplication/minhash_lsh/generate_dup_line_id_for_each_file.py --input_file input_file --output_dir output_dir
- 命令示例:
- 移除重复项
- 命令示例:
python3 deduplication/minhash_lsh/remove_dup.py --input_dir input_dir --output_dir output_dir --dup_line_id_dir dup_line_id_dir --worker num_worker
- 命令示例:
- 生成Minhash
-
相似行去重
- 命令示例:
python3 deduplication/simlar_line_dedup/similar_line_dedup.py --input_dir input_dir --output_dir output_dir --wokers num_worker --content_field_name content_field_name
- 命令示例:
-
预训练信息
- 预训练代码访问: 请参考Neo。
许可证
- 许可证类型: 创意共享署名-非商业性使用-禁止演绎4.0国际许可协议(CC BY-NC-ND 4.0)。
- 使用条款: 允许非商业性共享(复制和分发材料),不得进行修改或衍生,必须给予适当的署名。
引用信息
@misc{du2024chinese, title={Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model}, author={Xinrun Du and Zhouliang Yu and Songyang Gao and Ding Pan and Yuyang Cheng and Ziyang Ma and Ruibin Yuan and Xingwei Qu and Jiaheng Liu and Tianyu Zheng and Xinchen Luo and Guorui Zhou and Binhang Yuan and Wenhu Chen and Jie Fu and Ge Zhang}, year={2024}, eprint={2404.04167}, archivePrefix={arXiv}, primaryClass={cs.CL} }

中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
Breast Ultrasound Images (BUSI)
小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。
github 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录