five

VSSA-SDSA/LT_AI_BLKT

收藏
Hugging Face2026-04-21 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/VSSA-SDSA/LT_AI_BLKT
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - lt pretty_name: General Lithuanian Corpus tags: - text - parquet - corpus - lithuanian license: openrail size_categories: - 1M<n<10M task_categories: - text-generation - summarization configs: - config_name: default data_files: - split: train path: data/*.parquet --- # Model Card for LT_AI_BLKT (EN) / LT_AI_BLKT modelio kortelė (LT) ## Table of Contents / Turinys - [Description](#description) (EN) / [Aprašas](#aprasas) (LT) - [Dataset summary](#dataset-summary)(EN) - [Main columns](#main-columns) (EN) - [Data composition](#data-composition) (EN) - [Distribution of text types](#training-details) (EN) - [Sources](#sources) (EN) - [Time periods](#time-periods) (EN) - [Licensing](#licensing) (EN) / [Licencija](licencija) (LT)) - [Intended use](#intended-use) (EN) / [Numatyti naudojimo atvejai](#numatyti-naudojimo-atvejai) (LT) - [Restrictions](#restrictions)] (EN) / [Apribojimai](#apribojimai) (LT) - [Limitations and bias](#limitations-and-bias) (EN) / [Ribotumai ir šališkumas](#ribotumai-ir-saliskumas) (LT) - [Citation](#Citation) (EN) / [Citavimas](#Citavimas) (LT) ## English ### Description The **General Lithuanian Language Corpus** (hereinafter **BLKT**) was developed for the **State Digital Solutions Agency (SDSA)** as part of the project *Creation of the General Lithuanian Language Corpus and Vectorized Models* (project code: **02-103-P-0001**). The corpus was developed by a consortium of four partners: **Vytautas Magnus University (VMU)**, **UAB “Tilde informacinės technologijos”**, **UAB “Neurotechnology”**, and **MB “Krilas”**. The project is implemented under Progress Measure No. **05-002-01-07-08** of the **2021–2030 Lithuanian Republic State Digitalization Development Programme**, *Developing technological solutions and tools that enable safe and convenient use of services*, and fulfils the requirements of the activity *Development of linguistic resources for the needs of artificial intelligence technology solutions*. ### Dataset summary - **Number of Parquet files:** 25 - **Total rows (texts):** 8,438,155 - **Total file size:** 17.79 GB - **Total alpha-word count:** 3,941,476,219 ### Main columns - `alpha_word_count`: `int64` - `author`: `string` - `document_subtype`: `string` - `document_type`: `string` - `id`: `string` - `language`: `string` - `license`: `string` - `period`: `string` - `publication_date`: `string` - `record_created`: `string` - `source_file`: `string` - `source_id`: `string` - `source_name`: `string` - `text`: `string` - `text_char_count`: `int64` - `title`: `string` - `url`: `string` ### Data composition All BLKT texts are in Lithuanian and are human-written. The corpus is divided into five main text types (`document_type`): fiction (`gro`), non-fiction (`neg`), media (`zin`), speech (`sak`), and documents (`dok`). These are further divided into text subtypes (`document_subtype`), as shown below. | Type | Description | Subtype | Description | |------|-------------|---------|-------------| | zin | Media | port | News portals | | zin | Media | prdk | Newspapers and journals | | sak | Speech | sste | Parliament transcriptions | | sak | Speech | skit | Other speech transcriptions | | neg | Non-fiction | intt | Internet texts | | neg | Non-fiction | moks | Scientific papers and books | | neg | Non-fiction | kiti | Other texts | | gro | Fiction | proz | Prose | | gro | Fiction | poez | Poetry | | dok | Documents | dkes | EU documents | | dok | Documents | dklt | Lithuanian legal documents | | dok | Documents | dkad | Administrative documents | ### Distribution of text types | Text type | Word count | Share | Text count | |-----------|-----------:|------:|-----------:| | Documents | 1,509,347,610 | 38.29% | 1,212,131 | | Fiction | 11,767,755 | 0.30% | 440 | | Non-fiction | 279,251,467 | 7.08% | 832,256 | | Speech | 80,483,739 | 2.04% | 4,563 | | Media | 2,060,625,648 | 52.28% | 6,388,765 | | **Total** | **3,941,476,219** | **100.00%** | **8,438,155** | ### Sources The corpus was compiled from **36 different sources**, including news portals, legal and administrative documents, scientific publications, internet texts, speech transcriptions, and fiction. All source materials were included on the basis of the necessary permissions, licences, or other lawful grounds for use, in accordance with applicable copyright and data protection requirements. ### Time periods The texts in the corpus were published across four broad periods. | Time span | Period | Word count | Share | Text count | |-----------|-------:|-----------:|------:|-----------:| | 1922–1940 | 1 | 11,226,438 | 0.28% | 290 | | 1941–1990 | 2 | 10,440,807 | 0.26% | 4,288 | | 1990–2004 | 3 | 229,775,041 | 5.83% | 684,357 | | 2008–2026 | 4 | 3,690,033,933 | 93.62% | 7,749,220 | | | **Total** | **3,941,476,219** | **100.00%** | **8,438,155** | ### Licensing This dataset is distributed under the **NewGenLTU OpenRAIL-D** licence. This licence was specifically created by a team of researchers at **Vytautas Magnus University** for the publication of datasets produced in the course of research and development projects funded by the **New Generation Lithuania** plan. The licence aims to support open and responsible downstream use while ensuring compliance with applicable requirements related to copyright, personal data protection, and the EU AI Act. Please see the accompanying `LICENSE.txt` file in this repository for the full licence text. ### Intended use This dataset may be used for a range of Lithuanian-language NLP and AI tasks, including: - text generation, - summarisation, - language modelling, - grammar and style correction, - semantic search, - text analysis, - virtual assistants, - other language technology applications. ### Restrictions Under the **NewGenLTU OpenRAIL-D** licence, users must not use the dataset for: - discrimination, - the development of weapons or military applications, - automated decision-making affecting people, - disinformation, - privacy infringement, - medical or health advice, - creation of malware, - harassment, - dishonest research, - collection, extraction, or reconstruction of personal data. Please refer to the accompanying `LICENSE.txt` file for the full and authoritative wording. ### Limitations and bias The developers made substantial efforts to clean the dataset and reduce noise, OCR errors, and duplicates. However, users should be aware of the following limitations: - proportion of spelling errors: **0.1%**, - proportion of foreign words: **0.07%**, - texts from periods 1–2 (**0.54%** of the corpus) may contain archaic or no longer commonly used vocabulary and expressions, - the corpus is strongly dominated by **news portal texts (52%)** and **documents (38%)**, which may bias downstream models toward these registers and domains. ### Citation Please cite the dataset as: **State Digital Solutions Agency. 2026. General Lithuanian Language Corpus. Hugging Face. https://huggingface.co/datasets/VSSA-SDSA/LT_AI_BLKT** BibTeX: ```bibtex @dataset{gllc_2026, author = {{State Digital Solutions Agency}}, title = {General Lithuanian Language Corpus}, year = {2026}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/VSSA-SDSA/LT_AI_BLKT}, note = {Developed by Vytautas Magnus University, UAB "Tilde informacinės technologijos", UAB "Neurotechnology", and MB "Krilas".} } ``` ## Lietuviškai ### Aprašas **Bendrasis lietuvių kalbos tekstynas** (toliau – **BLKT**) sukurtas **Valstybės skaitmeninių sprendimų agentūrai (VSSA)** įgyvendinant projektą *Bendrojo lietuvių kalbos tekstyno ir vektorizuotų modelių sukūrimas* (projekto kodas: **02-103-P-0001**). Tekstyną sukūrė keturių partnerių konsorciumas: **Vytauto Didžiojo universitetas (VDU)**, **UAB „Tilde informacinės technologijos“**, **UAB „Neurotechnology“** ir **MB „Krilas“**. Tekstyną sudaro lietuvių kalba parašyti žmogaus sukurti tekstai, suskirstyti į penkis pagrindinius tipus: grožinius, negrožinius, žiniasklaidos, sakytinės kalbos ir dokumentų tekstus. Duomenų rinkinį sudaro **8 438 155** tekstai, kurių bendras alfabetinių žodžių skaičius siekia **3 941 476 219**. Duomenys pateikiami **25 Parquet failuose**, kurių bendras dydis yra **17,79 GB**. ### Licencija Šis duomenų rinkinys platinamas pagal **NewGenLTU OpenRAIL-D** licenciją. Visas licencijos tekstas pateiktas šiame saugykloje esančiame faile `LICENSE.txt`. ### Numatyti naudojimo atvejai Duomenų rinkinys gali būti naudojamas lietuvių kalbos technologijų užduotims, įskaitant: - teksto generavimą, - apibendrinimą, - gramatikos ir stiliaus taisymą, - semantinę paiešką, - teksto analizę, - virtualiuosius asistentus. ### Apribojimai Pagal **NewGenLTU OpenRAIL-D** licenciją šio duomenų rinkinio negalima naudoti diskriminacijai, ginklų ar karinių sprendimų kūrimui, automatizuotam sprendimų priėmimui, dezinformacijai, privatumo pažeidimams, medicininiams ar sveikatos patarimams, kenkėjiškų programų kūrimui, priekabiavimui, nesąžiningiems tyrimams ar asmens duomenų rinkimui, išgavimui arba atkūrimui. ### Ribotumai Nors tekstynas buvo kruopščiai valytas, naudotojai turėtų atsižvelgti į tai, kad: - rašybos klaidų dalis sudaro **0,1%**, - kitų kalbų žodžių dalis sudaro **0,07%**, - ankstyvesnių laikotarpių tekstuose gali pasitaikyti senesnės leksikos, - tekstyne vyrauja naujienų portalų ir dokumentų tekstai, todėl iš jo mokomi modeliai gali būti šališki šių registrų atžvilgiu. ### Citavimas Prašau cituokite šį rinkinį taip: **Valstybės skaitmeninių sprendimų agentūra. 2026. Bendrasis lietuvių kalbos tekstynas. Hugging Face. https://huggingface.co/datasets/VSSA-SDSA/LT_AI_BLKT .** BibTeX: ```bibtex @dataset{blkt_2026, author = {{Valstybės skaitmeninių sprendimų agentūra}}, title = {Bendrasis lietuvių kalbos tekstynas}, year = {2026}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/VSSA-SDSA/LT_AI_BLKT}, note = {Sukurta Vytauto Didžiojo universiteto, UAB "Tilde informacinės technologijos", UAB "Neurotechnology" ir MB "Krilas".} } ```

language: - 立陶宛语 pretty_name: 通用立陶宛语语料库 tags: - 文本 - Parquet(Parquet) - 语料库 - 立陶宛语 license: OpenRAIL size_categories: - 100万<样本数<1000万 task_categories: - 文本生成 - 文本摘要 configs: - config_name: 默认 data_files: - split: 训练集 path: data/*.parquet --- # LT_AI_BLKT 模型卡片 ## 目录 - [概述](#description) - [数据集概况](#dataset-summary) - [核心字段](#main-columns) - [数据构成](#data-composition) - [文本类型分布](#distribution-of-text-types) - [数据来源](#sources) - [时间跨度](#time-periods) - [许可证说明](#licensing) - [预期用途](#intended-use) - [使用限制](#restrictions) - [局限性与偏差](#limitations-and-bias) - [引用方式](#citation) ## 概述 **通用立陶宛语语料库(General Lithuanian Corpus,下文简称BLKT)** 由**国家数字解决方案局(State Digital Solutions Agency,SDSA)**委托开发,作为项目《通用立陶宛语语料库与向量化模型构建》(项目编号:02-103-P-0001)的核心产出。本语料库由四家合作方组成的联合体共同开发:**维陶塔斯马格努斯大学(Vytautas Magnus University,VMU)**、**UAB "Tilde informacinės technologijos"**、**UAB "Neurotechnology"**以及**MB "Krilas"**。 本项目依据《2021-2030年立陶宛共和国国家数字化发展规划》中的**05-002-01-07-08号进展措施**执行,该措施主题为*开发可实现服务安全便捷使用的技术解决方案与工具*,同时满足“面向人工智能技术解决方案需求开发语言资源”的活动要求。 ## 数据集概况 - **Parquet(Parquet)文件数量:** 25个 - **总文本条数:** 8,438,155 - **总文件大小:** 17.79 GB - **总有效字母单词数:** 3,941,476,219 ## 核心字段 - `alpha_word_count`:`int64` 类型,记录文本的有效字母单词数量 - `author`:`string` 类型,记录文本作者信息 - `document_subtype`:`string` 类型,记录文本子分类 - `document_type`:`string` 类型,记录文本主分类 - `id`:`string` 类型,记录文本唯一标识ID - `language`:`string` 类型,记录文本语言 - `license`:`string` 类型,记录文本使用许可证 - `period`:`string` 类型,记录文本所属时间周期 - `publication_date`:`string` 类型,记录文本发布日期 - `record_created`:`string` 类型,记录数据记录创建时间 - `source_file`:`string` 类型,记录来源文件路径 - `source_id`:`string` 类型,记录来源唯一标识 - `source_name`:`string` 类型,记录数据来源名称 - `text`:`string` 类型,记录文本正文内容 - `text_char_count`:`int64` 类型,记录文本总字符数 - `title`:`string` 类型,记录文本标题 - `url`:`string` 类型,记录文本来源URL ## 数据构成 本语料库内所有文本均为立陶宛语且由人类撰写,依据主分类`document_type`可划分为五大类:虚构类文本(`gro`)、非虚构类文本(`neg`)、媒体文本(`zin`)、发言实录(`sak`)以及官方文档(`dok`),各类主分类下还包含进一步的子分类`document_subtype`,详情如下表所示: | 主分类代码 | 主分类名称 | 子分类代码 | 子分类名称 | |-----------|-----------|-----------|-----------| | zin | 媒体 | port | 新闻门户网站 | | zin | 媒体 | prdk | 报纸与期刊 | | sak | 发言实录 | sste | 议会会议实录 | | sak | 发言实录 | skit | 其他发言实录 | | neg | 非虚构类文本 | intt | 网络文本 | | neg | 非虚构类文本 | moks | 学术论文与专著 | | neg | 非虚构类文本 | kiti | 其他非虚构文本 | | gro | 虚构类文本 | proz | 散文/小说 | | gro | 虚构类文本 | poez | 诗歌 | | dok | 官方文档 | dkes | 欧盟文件 | | dok | 官方文档 | dklt | 立陶宛法律文件 | | dok | 官方文档 | dkad | 行政公文 | ## 文本类型分布 | 文本主分类 | 有效单词数 | 占比 | 文本条数 | |-----------|-----------:|------:|-----------:| | 官方文档 | 1,509,347,610 | 38.29% | 1,212,131 | | 虚构类文本 | 11,767,755 | 0.30% | 440 | | 非虚构类文本 | 279,251,467 | 7.08% | 832,256 | | 发言实录 | 80,483,739 | 2.04% | 4,563 | | 媒体文本 | 2,060,625,648 | 52.28% | 6,388,765 | | **总计** | **3,941,476,219** | **100.00%** | **8,438,155** | ## 数据来源 本语料库的数据来源于**36个不同渠道**,涵盖新闻门户网站、法律与行政公文、学术出版物、网络文本、发言实录以及虚构类文本。所有源数据均依据适用的版权与数据保护法规,通过必要的授权、许可或其他合法使用途径获取。 ## 时间跨度 语料库中的文本发布于四个主要时间段,详情如下表所示: | 时间范围 | 周期编号 | 有效单词数 | 占比 | 文本条数 | |-----------|-------:|-----------:|------:|-----------:| | 1922年–1940年 | 1 | 11,226,438 | 0.28% | 290 | | 1941年–1990年 | 2 | 10,440,807 | 0.26% | 4,288 | | 1990年–2004年 | 3 | 229,775,041 | 5.83% | 684,357 | | 2008年–2026年 | 4 | 3,690,033,933 | 93.62% | 7,749,220 | | | **总计** | **3,941,476,219** | **100.00%** | **8,438,155** | ## 许可证说明 本数据集采用**NewGenLTU OpenRAIL-D**许可证进行分发。该许可证由**维陶塔斯马格努斯大学**的研究团队专门开发,用于发布由“新立陶宛计划(New Generation Lithuania)”资助的研发项目所产出的数据集。本许可证旨在支持开放且负责任的下游使用,同时确保符合版权、个人数据保护以及《欧盟人工智能法案(EU AI Act)》的相关合规要求。完整许可证文本请参阅本仓库附带的`LICENSE.txt`文件。 ## 预期用途 本数据集可用于一系列立陶宛语自然语言处理(Natural Language Processing,NLP)与人工智能任务,包括: - 文本生成 - 文本摘要 - 语言建模 - 语法与风格纠错 - 语义搜索 - 文本分析 - 虚拟助手 - 其他语言技术应用 ## 使用限制 依据**NewGenLTU OpenRAIL-D**许可证,用户不得将本数据集用于以下场景: - 歧视行为 - 武器或军事应用的开发 - 影响个人的自动化决策 - 虚假信息传播 - 侵犯隐私 - 提供医疗或健康建议 - 恶意软件开发 - 骚扰行为 - 不诚信研究 - 个人数据的收集、提取或重构 完整且具有权威性的条款请参阅本仓库附带的`LICENSE.txt`文件。 ## 局限性与偏差 数据集开发团队已付出大量精力对数据进行清洗,以降低噪声、OCR识别错误与重复文本的占比。但用户仍需注意以下局限性: - 拼写错误占比:**0.1%** - 外来词占比:**0.07%** - 第1-2周期的文本(占语料库的**0.54%**)可能包含过时或不再常用的词汇与表达 - 语料库中占比最高的两类文本为**新闻门户网站文本(52%)**与**官方文档(38%)**,这可能导致基于本数据集训练的下游模型偏向于这类文体与领域。 ## 引用方式 请按以下格式引用本数据集: **国家数字解决方案局. 2026. 通用立陶宛语语料库. Hugging Face. https://huggingface.co/datasets/VSSA-SDSA/LT_AI_BLKT** BibTeX引用格式: bibtex @dataset{gllc_2026, author = {{State Digital Solutions Agency}}, title = {General Lithuanian Language Corpus}, year = {2026}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/VSSA-SDSA/LT_AI_BLKT}, note = {Developed by Vytautas Magnus University, UAB "Tilde informacinės technologijos", UAB "Neurotechnology", and MB "Krilas".} } ## 立陶宛语版本 ### 概述 **通用立陶宛语语料库(Bendrasis lietuvių kalbos tekstynas,下文简称BLKT)** 由**国家数字解决方案局(Valstybės skaitmeninių sprendimų agentūra,VSSA)**委托开发,作为项目《通用立陶宛语语料库与向量化模型构建》(项目编号:02-103-P-0001)的核心产出。本语料库由四家合作方组成的联合体共同开发:**维陶塔斯马格努斯大学(Vytauto Didžiojo universitetas,VDU)**、**UAB "Tilde informacinės technologijos"**、**UAB "Neurotechnology"**以及**MB "Krilas"**。 本语料库包含人类撰写的立陶宛语文本,总共有**8,438,155**条文本,总有效字母单词数达**3,941,476,219**。数据以**25个Parquet(Parquet)文件**存储,总大小为**17.79 GB**。 ### 许可证说明 本数据集采用**NewGenLTU OpenRAIL-D**许可证进行分发。完整许可证文本请参阅本仓库附带的`LICENSE.txt`文件。 ### 预期用途 本数据集可用于立陶宛语语言技术相关任务,包括: - 文本生成 - 文本摘要 - 语法与风格纠错 - 语义搜索 - 文本分析 - 虚拟助手 ### 使用限制 依据**NewGenLTU OpenRAIL-D**许可证,用户不得将本数据集用于歧视、武器或军事应用开发、影响个人的自动化决策、虚假信息传播、侵犯隐私、提供医疗或健康建议、恶意软件开发、骚扰、不诚信研究以及个人数据的收集、提取或重构。 ### 局限性 尽管语料库已经过精心清洗,用户仍需注意以下事项: - 拼写错误占比:**0.1%** - 外来词占比:**0.07%** - 早期时间段的文本可能包含过时词汇 - 语料库中以新闻门户网站文本和文档为主,因此基于本数据集训练的模型可能偏向这类文体与领域。 ### 引用方式 请按以下格式引用本数据集: **国家数字解决方案局. 2026. 通用立陶宛语语料库. Hugging Face. https://huggingface.co/datasets/VSSA-SDSA/LT_AI_BLKT** BibTeX引用格式: bibtex @dataset{blkt_2026, author = {{Valstybės skaitmeninių sprendimų agentūra}}, title = {Bendrasis lietuvių kalbos tekstynas}, year = {2026}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/VSSA-SDSA/LT_AI_BLKT}, note = {Sukurta Vytauto Didžiojo universiteto, UAB "Tilde informacinės technologijos", UAB "Neurotechnology" ir MB "Krilas".} }
提供机构:
VSSA-SDSA
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作