LT_AI_BLKT
收藏数据集概述:LT_AI_BLKT (General Lithuanian Corpus)
基本信息
- 数据集名称:General Lithuanian Language Corpus (Bendrasis lietuvių kalbos tekstynas, BLKT)
- 发布机构:State Digital Solutions Agency (Valstybės skaitmeninių sprendimų agentūra, VSSA)
- 创建者:由Vytautas Magnus University (VMU)、UAB “Tilde informacinės technologijos”、UAB “Neurotechnology”和MB “Krilas”组成的联盟。
- 项目背景:项目“Bendrojo lietuvių kalbos tekstyno ir vektorizuotų modelių sukūrimas”(项目代码:02-103-P-0001),隶属于“2021–2030 Lithuanian Republic State Digitalization Development Programme”下的发展措施(05-002-01-07-08)。
- 语言:立陶宛语 (lt)
- 许可证:NewGenLTU OpenRAIL-D
- 规模分类:1M<n<10M
- 任务类别:文本生成、摘要
数据集统计摘要
- Parquet文件数量:25
- 总文本行数:8,438,155
- 总文件大小:17.79 GB
- 总字母单词数:3,941,476,219
数据结构
数据包含以下主要列:
alpha_word_count:int64author:stringdocument_subtype:stringdocument_type:stringid:stringlanguage:stringlicense:stringperiod:stringpublication_date:stringrecord_created:stringsource_file:stringsource_id:stringsource_name:stringtext:stringtext_char_count:int64title:stringurl:string
数据构成
所有文本均为人工撰写的立陶宛语文本。语料库分为五种主要文本类型(document_type),并进一步细分为子类型(document_subtype):
| 类型 | 描述 | 子类型 | 描述 |
|---|---|---|---|
| zin | 媒体 | port | 新闻门户 |
| zin | 媒体 | prdk | 报纸和期刊 |
| sak | 演讲 | sste | 议会转录稿 |
| sak | 演讲 | skit | 其他演讲转录稿 |
| neg | 非虚构 | intt | 互联网文本 |
| neg | 非虚构 | moks | 科学论文和书籍 |
| neg | 非虚构 | kiti | 其他文本 |
| gro | 虚构 | proz | 散文 |
| gro | 虚构 | poez | 诗歌 |
| dok | 文档 | dkes | 欧盟文件 |
| dok | 文档 | dklt | 立陶宛法律文件 |
| dok | 文档 | dkad | 行政文件 |
文本类型分布
| 文本类型 | 单词数 | 占比 | 文本数量 |
|---|---|---|---|
| 文档 | 1,509,347,610 | 38.29% | 1,212,131 |
| 虚构 | 11,767,755 | 0.30% | 440 |
| 非虚构 | 279,251,467 | 7.08% | 832,256 |
| 演讲 | 80,483,739 | 2.04% | 4,563 |
| 媒体 | 2,060,625,648 | 52.28% | 6,388,765 |
| 总计 | 3,941,476,219 | 100.00% | 8,438,155 |
数据来源
语料库汇编自36个不同的来源,包括新闻门户、法律和行政文件、科学出版物、互联网文本、演讲转录稿和虚构作品。所有源材料均基于必要的许可、许可证或其他合法使用依据纳入,并符合适用的版权和数据保护要求。
时间跨度分布
文本涵盖四个广泛时期:
| 时间跨度 | 时期 | 单词数 | 占比 | 文本数量 |
|---|---|---|---|---|
| 1922–1940 | 1 | 11,226,438 | 0.28% | 290 |
| 1941–1990 | 2 | 10,440,807 | 0.26% | 4,288 |
| 1990–2004 | 3 | 229,775,041 | 5.83% | 684,357 |
| 2008–2026 | 4 | 3,690,033,933 | 93.62% | 7,749,220 |
| 总计 | 3,941,476,219 | 100.00% | 8,438,155 |
预期用途
该数据集可用于一系列立陶宛语NLP和AI任务,包括:
- 文本生成
- 摘要
- 语言建模
- 语法和风格校正
- 语义搜索
- 文本分析
- 虚拟助手
- 其他语言技术应用
使用限制
根据NewGenLTU OpenRAIL-D许可证,用户不得将数据集用于:
- 歧视
- 武器或军事应用的开发
- 影响人们的自动化决策
- 虚假信息
- 侵犯隐私
- 医疗或健康建议
- 创建恶意软件
- 骚扰
- 不诚实的研究
- 个人数据的收集、提取或重建
完整且权威的措辞请参阅随附的LICENSE.txt文件。
局限性与偏差
开发人员付出了大量努力来清理数据集并减少噪音、OCR错误和重复项。但用户应注意以下限制:
- 拼写错误比例:0.46%
- 外来词比例:0.07%
- 时期1-2的文本(占语料库的0.54%)可能包含过时或不再常用的词汇和表达
- 语料库强烈 dominated by 新闻门户文本(52%) 和 文档(38%),这可能会使下游模型偏向于这些语域和领域
引用
请按如下方式引用该数据集: State Digital Solutions Agency. 2026. General Lithuanian Language Corpus. Hugging Face. https://huggingface.co/datasets/VSSA-SDSA/LT_AI_BLKT
BibTeX格式: bibtex @dataset{gllc_2026, author = {{State Digital Solutions Agency}}, title = {General Lithuanian Language Corpus}, year = {2026}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/VSSA-SDSA/LT_AI_BLKT}, note = {Developed by Vytautas Magnus University, UAB "Tilde informacinės technologijos", UAB "Neurotechnology", and MB "Krilas".} }




