five

liwu/MNBVC

收藏
hugging_face2025-07-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/liwu/MNBVC
下载链接
链接失效反馈
资源简介:
MNBVC数据集是一个包含多种类型中文互联网语料的数据集,旨在为开源社区提供一个长期更新的中文语料库。数据集包含多个子集,如法律文书、政府工作报告、企业年报、知乎问答、维基百科文本等。数据格式包括通用文本、问答语料、代码语料、多轮对话、论坛语料和平行语料。数据集由里屋社区构建,并由社区成员上传至Huggingface。
提供机构:
liwu
原始信息汇总

数据集概述

基本信息

  • 名称: MNBVC
  • 语言: 中文
  • 许可证: MIT
  • 多语言性: 单语种
  • 数据来源: 原始数据
  • 任务类别:
    • 文本生成
    • 填充掩码
  • 任务ID:
    • 语言建模
    • 掩码语言建模

数据集介绍

MNBVC数据集由中文互联网上的里屋社区创建,旨在提供最大的中文互联网语料集。数据集在不断更新中,用户可通过GitHub获取更多未清洗的数据。

数据子集

MNBVC数据集包含以下子集:

  • law_judgement: 法律文书文本
  • gov_xuexiqiangguo: 学习强国文本
  • gov_report: 政府工作报告文本
  • co_ann_report: 企业年报文本
  • code_metadata: 代码元数据
  • qa_zhihu: 知乎问答数据
  • qa_wikihow: 来自wikihow的问答数据
  • qa_mfa: 外交部问答数据
  • news_peoples_daily: 人民日报文本数据
  • wikipedia: 维基百科文本数据
  • qa_stackexchange: StackExchange问答数据
  • qa_chatgpt: 使用ChatGPT构造的问答语料
  • math_qa: 数学领域问答数据
  • math_chat: 数学领域对话数据
  • crawler_oscar: 从CommonCrawl清洗出的通用文本数据

数据格式

MNBVC数据集包含以下几类数据格式:

  • 通用文本
  • 问答语料
  • 代码语料
  • 多轮对话
  • 论坛语料
  • 平行语料

早期数据格式如下,未来将被废弃并重新上传: json { "text": datasets.Value("string"), "meta": datasets.Value("string") }

AI搜集汇总
数据集介绍
main_image_url
构建方式
MNBVC数据集的构建基于广泛的中文互联网语料,涵盖了法律文书、政府报告、企业年报、问答数据、新闻报道、维基百科条目等多个领域。数据集的构建过程包括从原始数据源中提取、清洗和整理,确保语料的多样性和高质量。通过社区的共同努力,MNBVC数据集不断更新和扩展,以满足不同应用场景的需求。
特点
MNBVC数据集以其庞大的规模和多样的内容著称,包含了从法律文书到游戏平行语料的广泛领域。数据集的多样性不仅体现在内容上,还包括数据格式,如通用文本、问答语料、代码语料等。此外,MNBVC数据集的持续更新机制确保了其时效性和实用性,使其成为中文自然语言处理领域的重要资源。
使用方法
MNBVC数据集可以通过HuggingFace的datasets库进行加载和使用。用户可以根据需求选择特定的子集,如法律文书、政府报告或问答数据等。加载数据集的示例代码展示了如何使用Python脚本进行数据访问。此外,MNBVC数据集的wiki页面提供了详细的数据格式说明,帮助用户更好地理解和处理数据。
背景与挑战
背景概述
MNBVC数据集,由中文互联网上历史悠久的里屋社区于2023年1月1日宣布创建,旨在为开源社区提供一份最大的中文互联网语料集。该数据集由里屋社区的成员在英明神武的里屋管子领导下,利用社区资源和专业知识,逐步更新和完善。MNBVC数据集的构建不仅体现了社区对开源事业的贡献,也为中文自然语言处理领域提供了丰富的资源,推动了相关研究的发展。
当前挑战
MNBVC数据集在构建过程中面临多重挑战。首先,数据来源广泛,包括法律文书、政府报告、企业年报、问答平台等多种文本类型,确保数据质量和一致性是一大难题。其次,数据清洗和格式标准化需要大量人力和时间,尤其是在处理多轮对话和论坛语料时。此外,随着数据规模的不断扩大,如何高效管理和更新数据集,以及如何确保数据的安全性和隐私保护,也是亟待解决的问题。
常用场景
经典使用场景
MNBVC数据集在自然语言处理领域中,以其庞大的中文语料库和多样化的数据子集,成为文本生成和掩码语言建模的经典资源。其子集如`law_judgement`和`gov_report`为法律和政府文本的生成提供了丰富的训练数据,而`qa_zhihu`和`qa_wikihow`则为问答系统的设计和优化提供了宝贵的语料支持。
实际应用
在实际应用中,MNBVC数据集被广泛用于构建和优化各种中文自然语言处理模型,如智能客服、法律文书自动生成和政府报告分析等。其丰富的语料资源使得这些应用在处理中文文本时更加准确和高效,极大地提升了用户体验和工作效率。
衍生相关工作
基于MNBVC数据集,研究者们开发了多种自然语言处理模型和工具,如针对法律文本的专用模型、问答系统的优化算法等。此外,该数据集还激发了关于大规模语料库构建和管理的研究,推动了数据清洗和标注技术的发展,为后续的数据集构建提供了宝贵的经验和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Asteroids by the Minor Planet Center

包含所有已知小行星的轨道数据和观测数据。数据来源于Minor Planet Center,格式包括Fortran (.DAT)和JSON,数据集大小为81MB(压缩)和450MB(未压缩),记录数约750,000条,每日更新。

github 收录

Billboard-Hot-100

该数据集包含了自1958年以来所有Billboard Hot 100榜单的历史数据,详细记录了每首歌曲的排名、日期、表演者等信息。

github 收录

Infrared Thermal Image Dataset of High Voltage Electrical Power Equipment under Different Operating Conditions

Recognizing high voltage power equipment in electrical substations is the fundamental platform for effective condition monitoring of electrical power system. It enables proper identification and analysis of anomalies within the equipment, especially when in operation. The result such investigation can be applied for effective real-time measurement, control and protection schemes in the network. The use of visual images for this purpose would be limited during poor lighting conditions. However, Infrared (IR) images of the equipment are invariant to poor illumination condition. Hence, we have acquired the thermographic images of the high voltage power equipment using the portable professional FLIR C5 Infrared camera at different times of the day and load conditions. The dataset contains 5 categories of high voltages equipment common to most air-insulated electrical power substation at 132kV level, namely: circuit breakers, power transformers, surge arresters, disconnectors, and wave traps. The number of IR images for each class of equipment are: circuit breakers 203, power transformers 178, surge arresters 181, disconnectors 180, and wave traps 153. The IR images are 640 x 480 pixel RGB images captured using the rainbow color palette and properly segmented in labeled folders. The color bar in each IR image identifies the thermal range used during its acquisition. The dataset can be used for implementing novel research in computer vision based deep learning models, especially in object recognition, identification, fault classification or detection algorithms. The thermal profile of the equipment in the dataset could be applied for detection of hotspots and other related anomalies.

DataCite Commons 收录

Autism-Datasets

收集了一些关于自闭症的数据集。

github 收录

UniMed

UniMed是一个大规模、开源的多模态医学数据集,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学领域的图像-文本数据,以促进可扩展的视觉语言模型(VLM)预训练。

github 收录