five

LT_AI_BLKT

收藏
Hugging Face2026-04-16 更新2026-04-17 收录
下载链接:
https://huggingface.co/datasets/VSSA-SDSA/LT_AI_BLKT
下载链接
链接失效反馈
官方服务:
资源简介:
通用立陶宛语语料库(BLKT)是由立陶宛国家数字解决方案机构委托开发的大规模文本数据集,由Vytautas Magnus大学等四家机构联合创建。该语料库包含8,438,155条立陶宛语文本(总计39.4亿单词),存储为25个Parquet文件(17.79GB)。数据涵盖1922-2026年间五种主要文本类型:媒体内容(52%)、文档(38%)、非虚构作品(7%)、演讲(2%)和小说(0.3%),并细分为12个子类别。语料库严格遵循立陶宛版权法规,采用NewGenLTU OpenRAIL-D许可证发布,明确禁止用于歧视性、军事或隐私侵犯等用途。虽然经过严格清洗,但仍包含0.46%拼写错误和0.07%外来词,且早期文本(占0.54%)可能存在古旧词汇。该数据集特别适用于立陶宛语的文本生成、摘要、语言建模等NLP任务,但需注意其新闻和公文语料的主导性可能导致模型偏差。
创建时间:
2026-04-10
原始信息汇总

数据集概述:LT_AI_BLKT (General Lithuanian Corpus)

基本信息

  • 数据集名称:General Lithuanian Language Corpus (Bendrasis lietuvių kalbos tekstynas, BLKT)
  • 发布机构:State Digital Solutions Agency (Valstybės skaitmeninių sprendimų agentūra, VSSA)
  • 创建者:由Vytautas Magnus University (VMU)、UAB “Tilde informacinės technologijos”、UAB “Neurotechnology”和MB “Krilas”组成的联盟。
  • 项目背景:项目“Bendrojo lietuvių kalbos tekstyno ir vektorizuotų modelių sukūrimas”(项目代码:02-103-P-0001),隶属于“2021–2030 Lithuanian Republic State Digitalization Development Programme”下的发展措施(05-002-01-07-08)。
  • 语言:立陶宛语 (lt)
  • 许可证:NewGenLTU OpenRAIL-D
  • 规模分类:1M<n<10M
  • 任务类别:文本生成、摘要

数据集统计摘要

  • Parquet文件数量:25
  • 总文本行数:8,438,155
  • 总文件大小:17.79 GB
  • 总字母单词数:3,941,476,219

数据结构

数据包含以下主要列:

  • alpha_word_count: int64
  • author: string
  • document_subtype: string
  • document_type: string
  • id: string
  • language: string
  • license: string
  • period: string
  • publication_date: string
  • record_created: string
  • source_file: string
  • source_id: string
  • source_name: string
  • text: string
  • text_char_count: int64
  • title: string
  • url: string

数据构成

所有文本均为人工撰写的立陶宛语文本。语料库分为五种主要文本类型(document_type),并进一步细分为子类型(document_subtype):

类型 描述 子类型 描述
zin 媒体 port 新闻门户
zin 媒体 prdk 报纸和期刊
sak 演讲 sste 议会转录稿
sak 演讲 skit 其他演讲转录稿
neg 非虚构 intt 互联网文本
neg 非虚构 moks 科学论文和书籍
neg 非虚构 kiti 其他文本
gro 虚构 proz 散文
gro 虚构 poez 诗歌
dok 文档 dkes 欧盟文件
dok 文档 dklt 立陶宛法律文件
dok 文档 dkad 行政文件

文本类型分布

文本类型 单词数 占比 文本数量
文档 1,509,347,610 38.29% 1,212,131
虚构 11,767,755 0.30% 440
非虚构 279,251,467 7.08% 832,256
演讲 80,483,739 2.04% 4,563
媒体 2,060,625,648 52.28% 6,388,765
总计 3,941,476,219 100.00% 8,438,155

数据来源

语料库汇编自36个不同的来源,包括新闻门户、法律和行政文件、科学出版物、互联网文本、演讲转录稿和虚构作品。所有源材料均基于必要的许可、许可证或其他合法使用依据纳入,并符合适用的版权和数据保护要求。

时间跨度分布

文本涵盖四个广泛时期:

时间跨度 时期 单词数 占比 文本数量
1922–1940 1 11,226,438 0.28% 290
1941–1990 2 10,440,807 0.26% 4,288
1990–2004 3 229,775,041 5.83% 684,357
2008–2026 4 3,690,033,933 93.62% 7,749,220
总计 3,941,476,219 100.00% 8,438,155

预期用途

该数据集可用于一系列立陶宛语NLP和AI任务,包括:

  • 文本生成
  • 摘要
  • 语言建模
  • 语法和风格校正
  • 语义搜索
  • 文本分析
  • 虚拟助手
  • 其他语言技术应用

使用限制

根据NewGenLTU OpenRAIL-D许可证,用户不得将数据集用于:

  • 歧视
  • 武器或军事应用的开发
  • 影响人们的自动化决策
  • 虚假信息
  • 侵犯隐私
  • 医疗或健康建议
  • 创建恶意软件
  • 骚扰
  • 不诚实的研究
  • 个人数据的收集、提取或重建

完整且权威的措辞请参阅随附的LICENSE.txt文件。

局限性与偏差

开发人员付出了大量努力来清理数据集并减少噪音、OCR错误和重复项。但用户应注意以下限制:

  • 拼写错误比例:0.46%
  • 外来词比例:0.07%
  • 时期1-2的文本(占语料库的0.54%)可能包含过时或不再常用的词汇和表达
  • 语料库强烈 dominated by 新闻门户文本(52%)文档(38%),这可能会使下游模型偏向于这些语域和领域

引用

请按如下方式引用该数据集: State Digital Solutions Agency. 2026. General Lithuanian Language Corpus. Hugging Face. https://huggingface.co/datasets/VSSA-SDSA/LT_AI_BLKT

BibTeX格式: bibtex @dataset{gllc_2026, author = {{State Digital Solutions Agency}}, title = {General Lithuanian Language Corpus}, year = {2026}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/VSSA-SDSA/LT_AI_BLKT}, note = {Developed by Vytautas Magnus University, UAB "Tilde informacinės technologijos", UAB "Neurotechnology", and MB "Krilas".} }

搜集汇总
数据集介绍
main_image_url
构建方式
在立陶宛国家数字化发展战略框架下,通用立陶宛语语料库(BLKT)的构建体现了系统性语言资源工程的严谨性。该语料库由立陶宛国家数字解决方案机构主导,联合四家学术与科技机构组成的联盟共同开发,作为“通用立陶宛语语料库及向量化模型创建”项目的核心成果。其构建过程严格遵循版权与数据保护法规,从36个异构来源系统性地采集了超过840万个人工撰写的立陶宛语文本,涵盖新闻、法律、学术、文学及口语转录等广泛领域。文本依据出版年代被划分为四个历史时期,并按照五大文本类型及其子类进行精细标注,最终形成总计约39.4亿词、以25个Parquet文件格式存储的结构化数据集。
使用方法
该语料库专为支持立陶宛语自然语言处理技术的研发与应用而设计。研究者可通过Hugging Face平台直接加载数据集,利用其丰富的元数据字段对特定领域、时期或来源的文本子集进行高效筛选,以满足文本生成、摘要、语言建模、语法校正、语义搜索等多样化任务的需求。数据集采用Parquet列式存储格式,兼顾了存储效率与查询性能。使用者需严格遵守附带的NewGenLTU OpenRAIL-D许可证规定,该许可证在倡导开放与负责任的下游应用的同时,明确禁止将数据用于歧视性、军事、自动化决策影响个人、虚假信息传播等不符合伦理的用途。在具体应用中,需注意数据在文体和时代分布上的不均衡性可能对模型性能产生的影响,并酌情采取数据平衡或领域适应策略。
背景与挑战
背景概述
立陶宛通用语料库(LT_AI_BLKT)作为立陶宛共和国国家数字化发展计划的关键组成部分,由立陶宛国家数字解决方案机构主导,联合维陶塔斯·马格努斯大学、Tilde信息技术公司等四家机构于2026年共同构建。该语料库旨在为立陶宛语的自然语言处理与人工智能技术提供高质量的语言资源基础,其核心研究问题聚焦于解决低资源语言在文本生成、摘要、语言建模等任务中面临的数据稀缺与质量不均的困境。通过整合超过840万条文本,涵盖文学、媒体、法律文档及口语转录等多种体裁,该数据集不仅显著提升了立陶宛语语言模型的训练效果,也为波罗的海语言区域的数字化进程提供了重要的研究支撑。
当前挑战
在领域层面,该数据集致力于应对立陶宛语作为低资源语言在自然语言处理中的核心挑战,即缺乏大规模、高质量且体裁均衡的文本数据,以支撑生成式模型与语义分析任务的稳健发展。构建过程中,研究团队面临多重挑战:首先,数据采集需跨越数十种来源,涉及复杂的版权许可与数据合规性审查,确保在法律框架内整合新闻、法律及学术文本;其次,语料清理过程需克服光学字符识别错误、拼写噪声以及历史文本中的古旧词汇干扰,最终将错误率控制在0.46%以内;此外,数据分布呈现显著不平衡,媒体与文档类文本占比超过90%,可能导致下游模型产生领域偏见,影响其在文学或口语等场景的泛化能力。
常用场景
经典使用场景
在立陶宛语自然语言处理领域,该数据集作为基础语料库,广泛用于训练和评估大规模语言模型。其覆盖新闻、法律、文学及学术文本的多样性,为模型提供了丰富的语言变体和领域知识,使得研究人员能够构建理解立陶宛语复杂语法结构和文化语境的人工智能系统。
解决学术问题
该数据集解决了低资源语言在人工智能研究中语料匮乏的核心问题,为立陶宛语的语法分析、语义理解及风格迁移等任务提供了标准化基准。通过整合近四十年跨领域文本,它支撑了语言技术的基础研究,促进了立陶宛语在数字时代的保存与发展,对语言平等和文化遗产的数字化具有深远意义。
实际应用
在实际应用中,该数据集驱动了立陶宛语智能助手、自动摘要系统和语法检查工具的开发。其高质量的文本资源被企业用于优化搜索引擎的语义理解能力,同时支持公共部门构建法律文档分析与多语言翻译服务,提升了立陶宛语在教育和政务领域的数字化服务水平。
数据集最近研究
最新研究方向
在低资源语言模型构建领域,LT_AI_BLKT作为立陶宛语最大规模的通用语料库,正推动该语言自然语言处理的前沿探索。其研究焦点集中于利用该数据集的高质量、多体裁文本,开发适应欧盟《人工智能法案》伦理要求的负责任AI模型。当前热点方向包括构建具有文化敏感性的立陶宛语大语言模型,以缓解数据中新闻与法律文本主导可能带来的领域偏差;同时,学者们致力于基于其细致的文本类型与时间跨度标注,开展历时语言变迁分析与领域自适应研究,为数字时代的语言保护与技术创新提供关键资源。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作