five

MNBVC|中文语料库数据集|预训练数据集数据集

收藏
github2024-05-12 更新2024-05-31 收录
中文语料库
预训练数据集
下载链接:
https://github.com/esbatmop/MNBVC
下载链接
链接失效反馈
资源简介:
MNBVC数据集是一个超大规模的中文语料集,包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。

The MNBVC dataset is an extensive collection of Chinese text corpora, encompassing a wide variety of content such as news articles, essays, novels, books, magazines, academic papers, scripts, forum posts, wiki entries, classical poetry, song lyrics, product descriptions, jokes, embarrassing stories, and chat logs. This dataset not only covers mainstream culture but also includes data from various niche cultures and even internet slang.
创建时间:
2022-12-31
原始信息汇总

MNBVC超大规模中文语料集概述

数据集描述

  • 名称: MNBVC(Massive Never-ending BT Vast Chinese corpus)
  • 内容: 包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。
  • 数据来源: 互联网收集。

数据集特点

  • 多样性: 涵盖主流文化及小众文化,甚至包括火星文。
  • 数据量: 目前总数据量33091GB,目标达到chatGPT3.5的40T数据,目前进度83%。
  • 数据格式: 压缩包内中文语料清洗为txt和json(包括jsonl)格式。
  • 数据脱敏: 收录的数据将去掉大于等于8位的数字串。
  • 数据加工: 只做粗加工,如html&xml转txt、csv&tsv转json等。

数据集使用

  • 下载方式:
    • 通过p2p微力同步全部压缩包并接收更新。
    • 通过百度网盘下载。
  • 版权声明: 数据集不提供压缩包内数据的索引和分类,以避免版权争议。

数据集贡献

  • 贡献方式: 通过参加语料元气弹项目,上传语料文档。
  • 技术支持: 提供多种清洗工具和爬虫工具,以优化数据处理效率。

引用信息

  • 引用格式:

@misc{mnbvc, author = {{MOP-LIWU Community} and {MNBVC Team}}, title = {MNBVC: Massive Never-ending BT Vast Chinese corpus}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/esbatmop/MNBVC}}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
MNBVC数据集的构建方式主要依赖于互联网上的广泛数据收集,涵盖了新闻、小说、论文、聊天记录等多种文本形式。数据来源于中文互联网的各个角落,包括主流文化与小众文化的内容。数据经过初步处理,如HTML和XML转换为纯文本,CSV和TSV转换为JSON等,并进行了脱敏处理,去除了包含8位及以上数字的敏感信息。最终数据以txt、json、jsonl和parquet格式存储,并计划统一为jsonl和parquet格式。
特点
MNBVC数据集的显著特点在于其超大规模和多样性。目前数据量已达42915GB,超过了ChatGPT3.5的40T目标,进度达到107.2%。数据集不仅包含主流文化内容,还涵盖了小众文化和火星文等多种形式,体现了中文语料的广泛性和深度。此外,数据集的构建过程中注重隐私保护和版权规避,通过脱敏处理和避免提供详细的索引和分类信息,确保了数据集的长期可持续性。
使用方法
MNBVC数据集的使用方法多样,用户可以通过Hugging Face平台获取清洗完成的分类数据,或通过P2P微力同步和百度网盘下载原始数据。数据集支持多种格式,包括txt、json、jsonl和parquet,适合不同类型的数据处理需求。用户在使用数据时应注意遵守项目的三条红线,避免讨论数据的索引和具体内容,以支持数据集的长期更新和维护。此外,项目提供了多种清洗和处理工具,帮助用户更高效地利用数据集。
背景与挑战
背景概述
MNBVC(Massive Never-ending BT Vast Chinese corpus)是由MOP里屋社区于2023年1月1日发起的超大规模中文语料集项目。该项目旨在收集和整理涵盖广泛主题的中文文本数据,包括新闻、小说、论文、聊天记录等多种形式,以支持自然语言处理和人工智能领域的研究。MNBVC不仅包括主流文化内容,还涵盖了小众文化和火星文等多样化的语料,总数据量已达42915GB,目标是达到40TB,超越ChatGPT 3.5的数据规模。该项目由社区自发组织,致力于为中文算法圈提供丰富的语料资源,推动中文自然语言处理技术的发展。
当前挑战
MNBVC项目面临的主要挑战包括数据来源的多样性和复杂性,以及数据清洗和版权审核的困难。首先,语料来源广泛,涵盖了从主流媒体到小众社区的多种文本形式,这增加了数据处理的复杂性。其次,由于数据来源于互联网,版权问题成为一大挑战,尽管项目组提供了数据来源信息,但仍需避免潜在的法律风险。此外,数据清洗工作量大,涉及多种格式的转换和重复内容的剔除,这对技术实现和人力资源提出了高要求。最后,如何确保数据的质量和一致性,以及如何高效地进行多模态数据的处理,也是项目面临的重要技术挑战。
常用场景
经典使用场景
MNBVC数据集的经典使用场景主要体现在自然语言处理(NLP)领域,尤其是在中文语言模型的训练与优化中。该数据集包含了从新闻、小说、论文到聊天记录等多种文本形式,为研究人员提供了丰富的语料资源,用于构建和验证中文语言模型,如文本生成、情感分析、机器翻译等任务。
实际应用
在实际应用中,MNBVC数据集被广泛用于开发智能客服、自动文本摘要、内容推荐系统等应用。例如,企业可以利用该数据集训练模型,提升客户服务的自动化水平;媒体机构则可以利用其进行新闻内容的自动生成与编辑。此外,教育领域也可利用该数据集开发智能辅导系统,提供个性化的学习内容。
衍生相关工作
基于MNBVC数据集,许多相关研究工作得以展开,包括但不限于中文预训练语言模型的开发、多模态数据处理技术的研究以及跨语言翻译模型的优化。例如,有研究者利用该数据集训练了高性能的中文BERT模型,进一步推动了中文NLP的发展。此外,该数据集还激发了对多模态数据处理技术的探索,如结合图像与文本进行联合建模。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

中国裁判文书网

中国裁判文书网是中国最高人民法院设立的官方网站,旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书,如判决书、裁定书、调解书等,涵盖了民事、刑事、行政、知识产权等多个法律领域。

wenshu.court.gov.cn 收录

CACD

跨年龄名人数据集是用于跨年龄人脸识别和检索的数据集。它包含 2,000 位名人的 163,446 张图像。该数据集于 2014 年由马里兰大学计算机科学系发表,论文名为 cross-age Reference Coding for Age-invariant Face Recognition and Retrieval。

OpenDataLab 收录

马达加斯加岛 – 世界地理数据大百科辞条

马达加斯加岛在非洲的东南部,位于11o56′59″S - 25o36′25″S及43o11′18″E - 50o29′36″E之间。通过莫桑比克海峡与位于非洲大陆的莫桑比克相望,最近距离为415千米。临近的岛屿分别为西北部的科摩罗群岛、北部的塞舌尔群岛、东部的毛里求斯岛和留尼汪岛等。在google earth 2015年遥感影像基础上研发的马达加斯加海岸线数据集表明,马达加斯加岛面积591,128.68平方千米,其中马达加斯加本岛面积589,015.06平方千米,周边小岛面积为2,113.62平方千米。马达加斯加本岛是非洲第一大岛,是仅次于格陵兰、新几内亚岛和加里曼丹岛的世界第四大岛屿。岛的形状呈南北走向狭长纺锤形,南北向长1,572千米;南北窄,中部宽,最宽处达574千米。海岸线总长16,309.27千米, 其中马达加斯加本岛海岸线长10,899.03千米,周边小岛海岸线长5,410.24千米。马达加斯加岛属于马达加斯加共和国。全国共划分22个区,119个县。22个区分别为:阿那拉芒加区,第亚那区,上马齐亚特拉区,博爱尼区,阿齐那那那区,阿齐莫-安德列发那区,萨瓦区,伊达西区,法基南卡拉塔区,邦古拉法区,索非亚区,贝齐博卡区,梅拉基区,阿拉奥特拉-曼古罗区,阿那拉兰基罗富区,阿莫罗尼马尼亚区,法土法韦-非图韦那尼区,阿齐莫-阿齐那那那区,伊霍罗贝区,美那贝区,安德罗伊区和阿诺西区。首都安塔那那利佛(Antananarivo)位于岛屿的中东部。马达加斯加岛是由火山及喀斯特地貌为主。贯穿海岛的是巨大火山岩山体-察腊塔纳山,其主峰马鲁穆库特鲁山(Maromokotro)海拔2,876米,是全国最高峰。马达加斯加自然景观垂直地带性分异显著,是热带雨林和热带草原广布的地区。岛上大约有20多万种动植物,其中包括马达加斯加特有物种狐猴(Lemur catta)、马达加斯加国树猴面包树(Adansonia digitata L.)等。

国家对地观测科学数据中心 收录

(주)동구바이오제약 2024년 기업정보 | 직원수, 근무환경, 복리후생 등

(주)동구바이오제약 기업소개 - 업력 : 42년차, 기업형태 : -, 업종 : 완제 의약품 제조업 | (주)동구바이오제약의 직원수, 연봉, 채용, 근무환경, 복리후생, 재무정보 등이 궁금하시다면, 사람인에서 더 많은 정보를 확인해보세요.

www.saramin.co.kr 收录