Tele-AI/TeleChat-PTD

hugging_face2024-03-20 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Tele-AI/TeleChat-PTD

下载链接

链接失效反馈

资源简介：

--- license: apache-2.0 viewer: false --- <div align="center"> <h1> TeleChat预训练数据集(TeleChat-PTD) </h1> </div> <p align="center"> 🤗 <a href="https://huggingface.co/Tele-AI" target="_blank">Hugging Face</a> • 🏔 <a href="" target="_blank">MindSpore</a>️ • 🦉 <a href="https://github.com/Tele-AI/Telechat" target="_blank">github</a>️ • 🐾 <a href="https://gitee.com/Tele-AI/tele-chat" target="_blank">gitee</a>️ • 💬 <a href="https://github.com/Tele-AI/Telechat/blob/master/images/wechat.jpg" target="_blank">WeChat</a> </p> <p align="center"> <a href="https://arxiv.org/abs/2401.03804" target="_blank"> Tech Report </a> </p> # 数据介绍 TeleChat-PTD 是由电信星辰大模型**TeleChat**预训练语料中抽取出的的综合性大规模中文数据集。数据主要来源于网页、书籍、官方媒体等。我们使用规则+模型的方式进行了相关的过滤，并对数据进行了相似性去重，尽可能地提取出高质量地数据。 TeleChat-PTD 数据集大约公开了2.7亿条数据，数据由纯中文文本构成，原始大小约1TB,压缩后480G，共189个文件。数据集中已经去除了其它冗余信息。 # 数据下载 huggingface下载地址：[数据下载](https://huggingface.co/datasets/Tele-AI/TeleChat-PTD) 天翼云盘下载地址：[数据下载](https://cloud.189.cn/t/ia2QbaVzYf6z)（访问码：pkg8） # 数据格式数据为jsonl格式，仅有一个字段data: 单条处理后的预训练数据 # 数据清洗数据清洗的工作流程主要是：规则筛选和清洗、去重、高质量数据筛选、数据安全处理这四个步骤。 - 规则筛选主要是一些通用的规则和启发式规则，例如对字数长度的筛选等等。 - 去重主要使用相似度去重来将过于相似重复的数据删除 - 高质量筛选主要使用了BERT、GPT2等模型对数据进行打分筛选出高质量数据 - 数据清洗主要是针对不良数据进行了识别和去除。 # 声明、协议、引用 ### 声明我们在此声明，不要使用TeleChat模型及其衍生模型进行任何危害国家社会安全或违法的活动。同时，我们也要求使用者不要将TeleChat模型用于没有安全审查和备案的互联网服务。我们希望所有使用者遵守上述原则，确保科技发展在合法合规的环境下进行。我们已经尽我们所能，来确保模型训练过程中使用的数据的合规性。然而，尽管我们已经做出了巨大的努力，但由于模型和数据的复杂性，仍有可能存在一些无法预见的问题。因此，如果由于使用TeleChat开源模型而导致的任何问题，包括但不限于数据安全问题、公共舆论风险，或模型被误导、滥用、传播或不当利用所带来的任何风险和问题，我们将不承担任何责任。 ### 协议社区使用 TeleChat 模型需要遵循《[TeleChat模型社区许可协议](./TeleChat模型社区许可协议.pdf)》。TeleChat模型支持商业用途，如果您计划将 TeleChat 模型或其衍生品用于商业目的，您需要通过以下联系邮箱 tele_ai@chinatelecom.cn，提交《TeleChat模型社区许可协议》要求的申请材料。审核通过后，将特此授予您一个非排他性、全球性、不可转让、不可再许可、可撤销的商用版权许可。 ### 引用如需引用我们的工作，请使用如下 reference: ``` @misc{wang2024telechat, title={TeleChat Technical Report}, author={Zihan Wang and Xinzhang Liu and Shixuan Liu and Yitong Yao and Yuyao Huang and Zhongjiang He and Xuelong Li and Yongxiang Li and Zhonghao Che and Zhaoxi Zhang and Yan Wang and Xin Wang and Luwen Pu and Huihan Xu and Ruiyu Fang and Yu Zhao and Jie Zhang and Xiaomeng Huang and Zhilong Lu and Jiaxin Peng and Wenjun Zheng and Shiquan Wang and Bingkai Yang and Xuewei he and Zhuoru Jiang and Qiyi Xie and Yanhan Zhang and Zhongqiu Li and Lingling Shi and Weiwei Fu and Yin Zhang and Zilu Huang and Sishi Xiong and Yuxiang Zhang and Chao Wang and Shuangyong Song}, year={2024}, eprint={2401.03804}, archivePrefix={arXiv}, primaryClass={cs.CL} } ```

提供机构：

Tele-AI

AI搜集汇总

数据集介绍

构建方式

TeleChat-PTD数据集的构建基于电信星辰大模型TeleChat的预训练语料，通过规则与模型的双重筛选机制，从网页、书籍及官方媒体等来源中提取出高质量的中文文本。数据清洗过程包括规则筛选、相似性去重、高质量数据筛选及数据安全处理，确保数据集的纯净与有效性。

特点

TeleChat-PTD数据集以其大规模和高质量著称，包含约2.7亿条纯中文文本，原始数据量达1TB，压缩后为480GB，分布于189个文件中。该数据集经过严格筛选与去重，确保每条数据的高质量与独特性，适用于多种自然语言处理任务。

使用方法

TeleChat-PTD数据集以jsonl格式提供，每条数据包含一个字段'data'，记录处理后的预训练文本。用户可通过Hugging Face或天翼云盘下载数据集。使用时需遵守TeleChat模型社区许可协议，确保合法合规。引用时请参考提供的文献格式。

背景与挑战

背景概述

TeleChat-PTD数据集是由电信星辰大模型TeleChat预训练语料中抽取出的综合性大规模中文数据集，创建于2024年。该数据集由主要研究人员王梓涵、刘新章等带领的团队在电信星辰大模型项目中开发，旨在为中文自然语言处理领域提供高质量的预训练数据。TeleChat-PTD数据集的构建不仅解决了中文数据稀缺的问题，还通过规则和模型的双重过滤，确保了数据的高质量和安全性，对推动中文自然语言处理技术的发展具有重要意义。

当前挑战

TeleChat-PTD数据集在构建过程中面临多项挑战。首先，数据来源广泛，包括网页、书籍和官方媒体，如何从海量数据中筛选出高质量的文本是一个复杂的问题。其次，数据去重和相似性处理需要高效的算法支持，以确保数据的唯一性和多样性。此外，数据安全处理和合规性检查也是一大挑战，尤其是在确保数据不包含敏感信息和遵守相关法律法规方面。这些挑战不仅影响了数据集的质量，也对后续的研究和应用提出了更高的要求。

常用场景

经典使用场景

TeleChat-PTD数据集在自然语言处理领域中被广泛应用于预训练模型的构建。其丰富的中文文本资源，涵盖了从网页、书籍到官方媒体的多样化内容，使得该数据集成为训练大规模语言模型的重要基石。通过使用TeleChat-PTD，研究者和开发者能够有效地提升模型的中文理解和生成能力，从而在文本分类、情感分析、机器翻译等多个任务中取得显著效果。

衍生相关工作

基于TeleChat-PTD数据集，研究者们开展了一系列相关工作。例如，有研究利用该数据集训练了高性能的中文文本分类模型，显著提升了分类准确率。同时，也有工作探索了如何利用TeleChat-PTD进行跨语言模型的预训练，以增强模型在多语言环境下的表现。此外，还有研究关注于数据集的进一步优化和扩展，旨在提升数据的质量和多样性，以支持更广泛的自然语言处理任务。

数据集最近研究

最新研究方向

在自然语言处理领域，TeleChat-PTD数据集的最新研究方向主要集中在提升预训练模型的质量和效率。研究者们通过引入更复杂的规则筛选和模型打分机制，进一步优化数据清洗流程，以确保数据的高质量和多样性。此外，该数据集的应用也在探索如何更好地支持多语言模型训练，以及如何在保持数据安全性的前提下，提高模型的泛化能力和实际应用效果。这些研究不仅推动了中文预训练模型的发展，也为全球范围内的多语言处理技术提供了新的思路和方法。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey（CHNS）是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目，旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响，以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体，采用多阶段随机抽样方法，收集了家庭、个体以及社区层面的详细数据，包括饮食、健康、经济和社会因素等信息。自2011年起，CHNS不断扩展，新增多个城市和省份，并持续完善纵向数据链接，为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

Weibo Dataset

V1版本包含了2023年上半年来自微博平台的2,106条新闻数据。其中包含1,000条假新闻和1,067条真实新闻。数据集包含新闻传播的评论数据，包含用户和评论信息。V2版本包含了来自中国微博社交媒体平台的11,329条新闻。其中包含5,661条假新闻和5,668条真实新闻。与V1版本相比，V2版本在V1的基础上扩大了数据量。同时，V2提供了新闻的多模态数据，包括新闻帖子、评论集合、图片、视频和声音信息。因此，V2提供了更真实的社交网络环境模拟，从而支持下游任务。

github 收录

LiTS

LiTS（Liver Tumor Segmentation Challenge）数据集是一个用于肝脏和肝脏肿瘤分割的医学图像数据集。该数据集包含来自300个病例的CT扫描图像，每个病例都有相应的肝脏和肿瘤的标注。

competitions.codalab.org 收录

GTEx (Genotype-Tissue Expression)

GTEx数据集包含了来自多个组织和器官的基因表达数据，旨在研究基因型与组织特异性表达之间的关系。数据集包括基因表达谱、基因型信息、组织样本的详细描述等。

gtexportal.org 收录