five

大型日本网络语料库|日语语言模型数据集|数据集数据集

收藏
arXiv2024-04-27 更新2024-06-21 收录
日语语言模型
数据集
下载链接:
https://huggingface.co/tokyotech-llm
下载链接
链接失效反馈
资源简介:
大型日本网络语料库是由东京工业大学计算机科学与技术学院创建的,旨在为大型语言模型提供高质量的日语训练数据。该数据集包含约3121亿字符,覆盖了2020至2023年间爬取的约634亿网页中的17300万页,是所有可用日语训练语料库中最大的。创建过程中,研究团队从Common Crawl档案中提取并精炼文本,特别设计了针对日语文本的过滤方法,以确保数据质量。该数据集主要用于训练日语大型语言模型,解决日语处理中的性能问题,提升模型在日语基准数据集上的表现。
提供机构:
东京工业大学计算机科学与技术学院
创建时间:
2024-04-27
AI搜集汇总
数据集介绍
main_image_url
构建方式
为了构建高质量的大型日本网络语料库,研究人员从Common Crawl档案中提取并精炼了文本。Common Crawl是一个非营利组织,它抓取网站并提供其档案。该语料库由大约3121亿字符(约1730万页)组成,是目前可用于训练日本大型语言模型(LLMs)的最大训练语料库。为了确保语料库的质量,研究人员对Llama 2 7B、13B、70B、Mistral 7B v0.1和Mixtral 8x7B Instruct等基础LLMs进行了持续预训练,并在日本基准数据集上获得了6.6至8.1点的持续改进。
使用方法
使用该数据集的方法主要包括持续预训练LLMs。研究人员使用Llama 2 7B、13B、70B、Mistral 7B v0.1和Mixtral 8x7B Instruct等基础LLMs进行持续预训练,并在日本基准数据集上评估了模型的性能。实验结果表明,使用该数据集进行持续预训练的LLMs在日语基准数据集上表现出显著的性能提升。此外,研究人员还提供了在Hugging Face上训练好的模型,方便其他研究人员进行进一步的研究和实验。
背景与挑战
背景概述
大型日本网络语料库的创建是为了应对现有日语语料库在质量和规模上的不足,以满足大型语言模型(LLMs)在日语文本处理方面的训练需求。该数据集由东京工业大学计算机科学系的Okazaki等人于2020年至2023年间,通过对Common Crawl档案中约63.4亿页网页的提取和精炼而构建。该语料库包含约3121亿个字符(约1.73亿页),是目前可用于日语LLMs训练的最大语料库,超越了CC-100、mC4和OSCAR等现有语料库。该研究通过在Llama 2、Mistral和Mixtral等基础LLMs上进行持续预训练,证实了该语料库的质量,并在日语基准数据集上实现了6.6至8.1点的稳定提升。该数据集的创建不仅提高了日语LLMs的训练质量,也对自然语言处理领域的研究和发展产生了深远影响。
当前挑战
该数据集在构建过程中面临的主要挑战包括:1)如何从Common Crawl档案中高效提取高质量的日语文本;2)如何设计有效的过滤方法以去除无关和有害的内容;3)如何在保证文本质量的同时进行高效的去重。此外,由于Common Crawl档案中的网页存在大量的HTML噪声和无关文本,如何在提取过程中去除这些干扰并保留高质量的日语文本,也是一个重要的挑战。此外,由于Common Crawl档案中包含的日语网页数量较少,如何设计轻量级的语言检测方法以加快处理速度,也是一个需要解决的问题。
常用场景
经典使用场景
在构建大规模语言模型时,大型日本网络语料库是一个重要的训练资源。由于其庞大的规模和高质量的数据,该语料库被广泛用于训练能够理解和生成日语的大型语言模型。这些模型在自然语言处理领域有着广泛的应用,包括但不限于机器翻译、文本摘要、问答系统和内容生成等。
解决学术问题
大型日本网络语料库解决了现有日语语料库质量不高的问题。虽然之前有一些日语语料库可用于训练大型语言模型,但它们大多是在多语言语料库中开发的,且日语文本的质量往往不尽如人意。该语料库的构建旨在提供高质量的日语文本,以改善大型语言模型在日语任务上的表现。通过在多个基准数据集上进行的持续预训练实验,该语料库的有效性得到了验证,显著提高了模型在日语任务上的性能。
实际应用
大型日本网络语料库在实际应用中具有广泛的前景。它可以用于构建能够理解和生成高质量日语文本的机器翻译系统,提高文本摘要的准确性和流畅性,以及开发更加智能的问答系统。此外,它还可以用于内容生成,为各种应用程序提供丰富多样的日语内容。该语料库的发布为日语自然语言处理领域的研究和应用提供了宝贵的资源。
数据集最近研究
最新研究方向
本研究构建了一个大型日本网络语料库,该语料库从Common Crawl存档中提取并精炼文本,旨在为大型语言模型提供高质量的日语训练数据。与现有的日语训练语料库相比,该语料库的规模更大,质量更高,能够显著提升大型语言模型在日语基准数据集上的表现。此外,研究还探讨了快速语言检测和文本质量过滤等技术在构建语料库中的应用,以提高处理效率和文本质量。未来研究方向包括进一步提高语料库的安全性,例如减少有害生成,以及探索更轻量级的方法来评估预训练语料库的有效性。
相关研究论文
  • 1
    Building a Large Japanese Web Corpus for Large Language Models东京工业大学计算机科学与技术学院 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

TPTP

TPTP(Thousands of Problems for Theorem Provers)是一个包含大量逻辑问题的数据集,主要用于定理证明器的测试和评估。它包含了多种逻辑形式的问题,如一阶逻辑、高阶逻辑、命题逻辑等。

www.tptp.org 收录

AlgoPuzzleVQA

We are releasing AlgoPuzzleVQA, a novel and challenging dataset for multimodal reasoning!

github 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录