MAP-CC|自然语言处理数据集|预训练数据集数据集
收藏数据集概述
数据集名称: CT-LLM
数据集描述: CT-LLM是一个2亿参数的语言模型,专注于中文语言处理。该模型主要使用包含1,200亿令牌的语料库进行训练,其中800亿为中文令牌,300亿为英文令牌,100亿为代码令牌。通过使用中文数据和调整技术,CT-LLM在处理中文语言任务上表现出色,并通过SFT在英文上也表现良好。
数据集组件
-
MAP-CC
- 描述: 一个开放源代码的中文预训练数据集,包含800亿令牌,以及一套详细的清理中文网络语料库的程序。
- 目的: 为自然语言处理社区提供高质量的中文预训练数据和有效的数据准备方法。
-
CHC-Bench
- 描述: 一个精选的多学科中文硬案例指令理解和遵循基准。
- 目的: 用于评估和改进模型在中文复杂案例处理上的能力。
-
CT-LLM
- 描述: 首个以中文为中心的大型语言模型,主要在中文语料库上进行预训练和微调。
- 目的: 提供关于潜在偏见、中文语言能力和多语言适应性的深入见解。
数据处理流程
-
过滤
- 步骤: 使用fasttext模型进行文本过滤。
- 命令示例:
python3 filter/filter.py --input_data input_dir --output_dir output_dir --success_dir success_dir --log_dir log_dir --worker num_worker
-
去重
-
全文本去重
- 命令示例:
python3 deduplication/full_text_dedup/full_text_dedup.py --input_dir input_dir --output_dir output_dir --content_field_name content_field_name
- 命令示例:
-
Minhash LSH去重
- 生成Minhash
- 命令示例:
python3 deduplication/minhash_lsh/generate_minhash.py --input_dir input_dir --output_dir output_dir --workers num_workers --content_field_name content_field_name
- 命令示例:
- 生成重复对
- 命令示例:
python3 deduplication/minhash_lsh/generate_dup_pairs.py --input_dir input_dir --output_dir output_dir
- 命令示例:
- 生成连接组件
- 命令示例:
python3 deduplication/minhash_lsh/generate_connected_components.py --input_dir input_dir --output_file output_file --num_workers num_workers
- 命令示例:
- 生成每个文件的重复行ID
- 命令示例:
python3 deduplication/minhash_lsh/generate_dup_line_id_for_each_file.py --input_file input_file --output_dir output_dir
- 命令示例:
- 移除重复项
- 命令示例:
python3 deduplication/minhash_lsh/remove_dup.py --input_dir input_dir --output_dir output_dir --dup_line_id_dir dup_line_id_dir --worker num_worker
- 命令示例:
- 生成Minhash
-
相似行去重
- 命令示例:
python3 deduplication/simlar_line_dedup/similar_line_dedup.py --input_dir input_dir --output_dir output_dir --wokers num_worker --content_field_name content_field_name
- 命令示例:
-
预训练信息
- 预训练代码访问: 请参考Neo。
许可证
- 许可证类型: 创意共享署名-非商业性使用-禁止演绎4.0国际许可协议(CC BY-NC-ND 4.0)。
- 使用条款: 允许非商业性共享(复制和分发材料),不得进行修改或衍生,必须给予适当的署名。
引用信息
@misc{du2024chinese, title={Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model}, author={Xinrun Du and Zhouliang Yu and Songyang Gao and Ding Pan and Yuyang Cheng and Ziyang Ma and Ruibin Yuan and Xingwei Qu and Jiaheng Liu and Tianyu Zheng and Xinchen Luo and Guorui Zhou and Binhang Yuan and Wenhu Chen and Jie Fu and Ge Zhang}, year={2024}, eprint={2404.04167}, archivePrefix={arXiv}, primaryClass={cs.CL} }

Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
rpi_test
该数据集为HuggingFace LeRobot格式机器人数据集。
huggingface 收录
Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录
广州市平均工资情况
该数据集包含了广州市平均工资情况的相关统计数据,并按照国民经济行业、隶属关系、执行会计制度等分类依据展示为更多细分指标。
开放广东 收录
