大型日本网络语料库

Name: 大型日本网络语料库
Creator: 东京工业大学计算机科学与技术学院
Published: 2024-04-27 08:02:45
License: 暂无描述

arXiv2024-04-27 更新2024-06-21 收录

下载链接：

https://huggingface.co/tokyotech-llm

下载链接

链接失效反馈

官方服务：

资源简介：

大型日本网络语料库是由东京工业大学计算机科学与技术学院创建的，旨在为大型语言模型提供高质量的日语训练数据。该数据集包含约3121亿字符，覆盖了2020至2023年间爬取的约634亿网页中的17300万页，是所有可用日语训练语料库中最大的。创建过程中，研究团队从Common Crawl档案中提取并精炼文本，特别设计了针对日语文本的过滤方法，以确保数据质量。该数据集主要用于训练日语大型语言模型，解决日语处理中的性能问题，提升模型在日语基准数据集上的表现。

The Large Japanese Web Corpus was developed by the School of Computer Science and Technology, Tokyo Institute of Technology, with the core objective of providing high-quality Japanese training data for large language models (LLMs). Comprising approximately 173 million pages extracted from around 63.4 billion web pages crawled between 2020 and 2023, the corpus has a total size of about 312.1 billion characters, making it the largest available Japanese training corpus to date. During its development, the research team extracted and refined textual content from Common Crawl archives, and designed specialized filtering methods tailored specifically for Japanese text to ensure data quality. This corpus is primarily used for training Japanese large language models, aiming to address performance issues in Japanese language processing and improve the models' performance on Japanese benchmark datasets.

提供机构：

东京工业大学计算机科学与技术学院

创建时间：

2024-04-27

搜集汇总

数据集介绍

构建方式

为了构建高质量的大型日本网络语料库，研究人员从Common Crawl档案中提取并精炼了文本。Common Crawl是一个非营利组织，它抓取网站并提供其档案。该语料库由大约3121亿字符（约1730万页）组成，是目前可用于训练日本大型语言模型（LLMs）的最大训练语料库。为了确保语料库的质量，研究人员对Llama 2 7B、13B、70B、Mistral 7B v0.1和Mixtral 8x7B Instruct等基础LLMs进行了持续预训练，并在日本基准数据集上获得了6.6至8.1点的持续改进。

使用方法

使用该数据集的方法主要包括持续预训练LLMs。研究人员使用Llama 2 7B、13B、70B、Mistral 7B v0.1和Mixtral 8x7B Instruct等基础LLMs进行持续预训练，并在日本基准数据集上评估了模型的性能。实验结果表明，使用该数据集进行持续预训练的LLMs在日语基准数据集上表现出显著的性能提升。此外，研究人员还提供了在Hugging Face上训练好的模型，方便其他研究人员进行进一步的研究和实验。

背景与挑战

背景概述

大型日本网络语料库的创建是为了应对现有日语语料库在质量和规模上的不足，以满足大型语言模型（LLMs）在日语文本处理方面的训练需求。该数据集由东京工业大学计算机科学系的Okazaki等人于2020年至2023年间，通过对Common Crawl档案中约63.4亿页网页的提取和精炼而构建。该语料库包含约3121亿个字符（约1.73亿页），是目前可用于日语LLMs训练的最大语料库，超越了CC-100、mC4和OSCAR等现有语料库。该研究通过在Llama 2、Mistral和Mixtral等基础LLMs上进行持续预训练，证实了该语料库的质量，并在日语基准数据集上实现了6.6至8.1点的稳定提升。该数据集的创建不仅提高了日语LLMs的训练质量，也对自然语言处理领域的研究和发展产生了深远影响。

当前挑战

该数据集在构建过程中面临的主要挑战包括：1)如何从Common Crawl档案中高效提取高质量的日语文本；2)如何设计有效的过滤方法以去除无关和有害的内容；3)如何在保证文本质量的同时进行高效的去重。此外，由于Common Crawl档案中的网页存在大量的HTML噪声和无关文本，如何在提取过程中去除这些干扰并保留高质量的日语文本，也是一个重要的挑战。此外，由于Common Crawl档案中包含的日语网页数量较少，如何设计轻量级的语言检测方法以加快处理速度，也是一个需要解决的问题。

常用场景

经典使用场景

在构建大规模语言模型时，大型日本网络语料库是一个重要的训练资源。由于其庞大的规模和高质量的数据，该语料库被广泛用于训练能够理解和生成日语的大型语言模型。这些模型在自然语言处理领域有着广泛的应用，包括但不限于机器翻译、文本摘要、问答系统和内容生成等。

解决学术问题

大型日本网络语料库解决了现有日语语料库质量不高的问题。虽然之前有一些日语语料库可用于训练大型语言模型，但它们大多是在多语言语料库中开发的，且日语文本的质量往往不尽如人意。该语料库的构建旨在提供高质量的日语文本，以改善大型语言模型在日语任务上的表现。通过在多个基准数据集上进行的持续预训练实验，该语料库的有效性得到了验证，显著提高了模型在日语任务上的性能。

实际应用

大型日本网络语料库在实际应用中具有广泛的前景。它可以用于构建能够理解和生成高质量日语文本的机器翻译系统，提高文本摘要的准确性和流畅性，以及开发更加智能的问答系统。此外，它还可以用于内容生成，为各种应用程序提供丰富多样的日语内容。该语料库的发布为日语自然语言处理领域的研究和应用提供了宝贵的资源。

数据集最近研究