LT_AI_BLKT

Hugging Face2026-04-16 更新2026-04-17 收录

下载链接：

https://huggingface.co/datasets/VSSA-SDSA/LT_AI_BLKT

下载链接

链接失效反馈

官方服务：

资源简介：

通用立陶宛语语料库（BLKT）是由立陶宛国家数字解决方案机构委托开发的大规模文本数据集，由Vytautas Magnus大学等四家机构联合创建。该语料库包含8,438,155条立陶宛语文本（总计39.4亿单词），存储为25个Parquet文件（17.79GB）。数据涵盖1922-2026年间五种主要文本类型：媒体内容（52%）、文档（38%）、非虚构作品（7%）、演讲（2%）和小说（0.3%），并细分为12个子类别。语料库严格遵循立陶宛版权法规，采用NewGenLTU OpenRAIL-D许可证发布，明确禁止用于歧视性、军事或隐私侵犯等用途。虽然经过严格清洗，但仍包含0.46%拼写错误和0.07%外来词，且早期文本（占0.54%）可能存在古旧词汇。该数据集特别适用于立陶宛语的文本生成、摘要、语言建模等NLP任务，但需注意其新闻和公文语料的主导性可能导致模型偏差。

创建时间：

2026-04-10

原始信息汇总

数据集概述：LT_AI_BLKT (General Lithuanian Corpus)

基本信息

数据集名称：General Lithuanian Language Corpus (Bendrasis lietuvių kalbos tekstynas, BLKT)
发布机构：State Digital Solutions Agency (Valstybės skaitmeninių sprendimų agentūra, VSSA)
创建者：由Vytautas Magnus University (VMU)、UAB “Tilde informacinės technologijos”、UAB “Neurotechnology”和MB “Krilas”组成的联盟。
项目背景：项目“Bendrojo lietuvių kalbos tekstyno ir vektorizuotų modelių sukūrimas”（项目代码：02-103-P-0001），隶属于“2021–2030 Lithuanian Republic State Digitalization Development Programme”下的发展措施（05-002-01-07-08）。
语言：立陶宛语 (lt)
许可证：NewGenLTU OpenRAIL-D
规模分类：1M<n<10M
任务类别：文本生成、摘要

数据集统计摘要

Parquet文件数量：25
总文本行数：8,438,155
总文件大小：17.79 GB
总字母单词数：3,941,476,219

数据结构

数据包含以下主要列：

alpha_word_count: int64
author: string
document_subtype: string
document_type: string
id: string
language: string
license: string
period: string
publication_date: string
record_created: string
source_file: string
source_id: string
source_name: string
text: string
text_char_count: int64
title: string
url: string

数据构成

所有文本均为人工撰写的立陶宛语文本。语料库分为五种主要文本类型（document_type），并进一步细分为子类型（document_subtype）：

类型	描述	子类型	描述
zin	媒体	port	新闻门户
zin	媒体	prdk	报纸和期刊
sak	演讲	sste	议会转录稿
sak	演讲	skit	其他演讲转录稿
neg	非虚构	intt	互联网文本
neg	非虚构	moks	科学论文和书籍
neg	非虚构	kiti	其他文本
gro	虚构	proz	散文
gro	虚构	poez	诗歌
dok	文档	dkes	欧盟文件
dok	文档	dklt	立陶宛法律文件
dok	文档	dkad	行政文件

文本类型分布

文本类型	单词数	占比	文本数量
文档	1,509,347,610	38.29%	1,212,131
虚构	11,767,755	0.30%	440
非虚构	279,251,467	7.08%	832,256
演讲	80,483,739	2.04%	4,563
媒体	2,060,625,648	52.28%	6,388,765
总计	3,941,476,219	100.00%	8,438,155

数据来源

语料库汇编自36个不同的来源，包括新闻门户、法律和行政文件、科学出版物、互联网文本、演讲转录稿和虚构作品。所有源材料均基于必要的许可、许可证或其他合法使用依据纳入，并符合适用的版权和数据保护要求。

时间跨度分布

文本涵盖四个广泛时期：

时间跨度	时期	单词数	占比	文本数量
1922–1940	1	11,226,438	0.28%	290
1941–1990	2	10,440,807	0.26%	4,288
1990–2004	3	229,775,041	5.83%	684,357
2008–2026	4	3,690,033,933	93.62%	7,749,220
	总计	3,941,476,219	100.00%	8,438,155

预期用途

该数据集可用于一系列立陶宛语NLP和AI任务，包括：

文本生成
摘要
语言建模
语法和风格校正
语义搜索
文本分析
虚拟助手
其他语言技术应用

使用限制

根据NewGenLTU OpenRAIL-D许可证，用户不得将数据集用于：

歧视
武器或军事应用的开发
影响人们的自动化决策
虚假信息
侵犯隐私
医疗或健康建议
创建恶意软件
骚扰
不诚实的研究
个人数据的收集、提取或重建

完整且权威的措辞请参阅随附的LICENSE.txt文件。

局限性与偏差

开发人员付出了大量努力来清理数据集并减少噪音、OCR错误和重复项。但用户应注意以下限制：

拼写错误比例：0.46%
外来词比例：0.07%
时期1-2的文本（占语料库的0.54%）可能包含过时或不再常用的词汇和表达
语料库强烈 dominated by 新闻门户文本（52%） 和 文档（38%），这可能会使下游模型偏向于这些语域和领域

引用

请按如下方式引用该数据集： State Digital Solutions Agency. 2026. General Lithuanian Language Corpus. Hugging Face. https://huggingface.co/datasets/VSSA-SDSA/LT_AI_BLKT

BibTeX格式： bibtex @dataset{gllc_2026, author = {{State Digital Solutions Agency}}, title = {General Lithuanian Language Corpus}, year = {2026}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/VSSA-SDSA/LT_AI_BLKT}, note = {Developed by Vytautas Magnus University, UAB "Tilde informacinės technologijos", UAB "Neurotechnology", and MB "Krilas".} }

搜集汇总

数据集介绍

构建方式

在立陶宛国家数字化发展战略框架下，通用立陶宛语语料库（BLKT）的构建体现了系统性语言资源工程的严谨性。该语料库由立陶宛国家数字解决方案机构主导，联合四家学术与科技机构组成的联盟共同开发，作为“通用立陶宛语语料库及向量化模型创建”项目的核心成果。其构建过程严格遵循版权与数据保护法规，从36个异构来源系统性地采集了超过840万个人工撰写的立陶宛语文本，涵盖新闻、法律、学术、文学及口语转录等广泛领域。文本依据出版年代被划分为四个历史时期，并按照五大文本类型及其子类进行精细标注，最终形成总计约39.4亿词、以25个Parquet文件格式存储的结构化数据集。

使用方法

该语料库专为支持立陶宛语自然语言处理技术的研发与应用而设计。研究者可通过Hugging Face平台直接加载数据集，利用其丰富的元数据字段对特定领域、时期或来源的文本子集进行高效筛选，以满足文本生成、摘要、语言建模、语法校正、语义搜索等多样化任务的需求。数据集采用Parquet列式存储格式，兼顾了存储效率与查询性能。使用者需严格遵守附带的NewGenLTU OpenRAIL-D许可证规定，该许可证在倡导开放与负责任的下游应用的同时，明确禁止将数据用于歧视性、军事、自动化决策影响个人、虚假信息传播等不符合伦理的用途。在具体应用中，需注意数据在文体和时代分布上的不均衡性可能对模型性能产生的影响，并酌情采取数据平衡或领域适应策略。

背景与挑战

背景概述

立陶宛通用语料库（LT_AI_BLKT）作为立陶宛共和国国家数字化发展计划的关键组成部分，由立陶宛国家数字解决方案机构主导，联合维陶塔斯·马格努斯大学、Tilde信息技术公司等四家机构于2026年共同构建。该语料库旨在为立陶宛语的自然语言处理与人工智能技术提供高质量的语言资源基础，其核心研究问题聚焦于解决低资源语言在文本生成、摘要、语言建模等任务中面临的数据稀缺与质量不均的困境。通过整合超过840万条文本，涵盖文学、媒体、法律文档及口语转录等多种体裁，该数据集不仅显著提升了立陶宛语语言模型的训练效果，也为波罗的海语言区域的数字化进程提供了重要的研究支撑。

当前挑战

在领域层面，该数据集致力于应对立陶宛语作为低资源语言在自然语言处理中的核心挑战，即缺乏大规模、高质量且体裁均衡的文本数据，以支撑生成式模型与语义分析任务的稳健发展。构建过程中，研究团队面临多重挑战：首先，数据采集需跨越数十种来源，涉及复杂的版权许可与数据合规性审查，确保在法律框架内整合新闻、法律及学术文本；其次，语料清理过程需克服光学字符识别错误、拼写噪声以及历史文本中的古旧词汇干扰，最终将错误率控制在0.46%以内；此外，数据分布呈现显著不平衡，媒体与文档类文本占比超过90%，可能导致下游模型产生领域偏见，影响其在文学或口语等场景的泛化能力。

常用场景

经典使用场景

在立陶宛语自然语言处理领域，该数据集作为基础语料库，广泛用于训练和评估大规模语言模型。其覆盖新闻、法律、文学及学术文本的多样性，为模型提供了丰富的语言变体和领域知识，使得研究人员能够构建理解立陶宛语复杂语法结构和文化语境的人工智能系统。

解决学术问题

该数据集解决了低资源语言在人工智能研究中语料匮乏的核心问题，为立陶宛语的语法分析、语义理解及风格迁移等任务提供了标准化基准。通过整合近四十年跨领域文本，它支撑了语言技术的基础研究，促进了立陶宛语在数字时代的保存与发展，对语言平等和文化遗产的数字化具有深远意义。

实际应用

在实际应用中，该数据集驱动了立陶宛语智能助手、自动摘要系统和语法检查工具的开发。其高质量的文本资源被企业用于优化搜索引擎的语义理解能力，同时支持公共部门构建法律文档分析与多语言翻译服务，提升了立陶宛语在教育和政务领域的数字化服务水平。

数据集最近研究