five

UkrLM-social

收藏
Hugging Face2026-04-15 更新2026-04-16 收录
下载链接:
https://huggingface.co/datasets/ruvimx/UkrLM-social
下载链接
链接失效反馈
官方服务:
资源简介:
UkrLM Social Corpus 是一个经过精心整理的乌克兰语文本语料库,数据来源于公开的社交媒体平台 Telegram 和 Reddit,专为语言模型的预训练和微调而设计。该数据集是 UkrLM 计划的一部分,旨在为乌克兰语构建基础的自然语言处理资源。数据集包含来自乌克兰语 Telegram 频道和 Reddit 子论坛的公开帖子和评论,经过多阶段的清洗流程,包括语言和质量过滤、噪声去除、匿名化和去重处理。每条记录包含文本内容、来源平台、频道或子论坛名称、时间戳等字段。数据集以 Parquet 格式发布,采用 CC BY 4.0 许可,适用于语言建模等任务。
创建时间:
2026-04-05
原始信息汇总

UkrLM Social Corpus 数据集概述

数据集基本信息

  • 名称:UkrLM Social Corpus
  • 语言:乌克兰语 (uk)
  • 许可证:CC BY 4.0
  • 任务类别:文本生成、语言建模
  • 标签:乌克兰语、社交媒体、Telegram、Reddit、NLP、语料库
  • 规模类别:100K<n<1M
  • 格式:Parquet

数据来源与内容

  • 来源平台:Telegram 与 Reddit
  • Telegram内容:来自乌克兰语公共频道,涵盖分析、文化和社区讨论。
  • Reddit内容:来自乌克兰语及乌克兰相关子版块(如 r/ukraine, r/ukr 等)的公开帖子和评论。

数据处理流程

语言与质量过滤

  • 仅包含乌克兰语文本。
  • 文本长度:最少15个字符,最多10,000个字符。
  • 字母字符比例不低于35%。
  • 每条记录至少包含5个西里尔字母。
  • 丢弃主要由匿名化令牌组成的记录。

噪声去除

  • 移除Markdown格式(如粗体、斜体、删除线、引用、标题、内联代码)。
  • 从帖子底部逐行移除广告尾部(频道推广、社交链接)。
  • 移除表情符号占比超过50%的行。
  • 移除分隔线(如 ————, ___ 等)。
  • 解码HTML实体(如 &gt;>, &amp;&)。

匿名化处理

  • 将以下信息替换为特定令牌:
    • 人名 → <PERSON>
    • 用户名 → <USER>
    • 电话号码 → <PHONE>
    • 卡号 → <CARD>
    • 电子邮件地址 → <EMAIL>
    • URL → <URL>

去重

  • 对转换为小写并标准化空格的文本进行完全匹配去重。

数据格式

每条记录为包含以下字段的扁平对象:

  • text:清洗后的乌克兰语文本。
  • source:来源平台 (telegramreddit)。
  • channel:Telegram频道标识符(仅Telegram数据)。
  • subreddit:子版块名称(仅Reddit数据)。
  • date:ISO 8601时间戳(可能为空)。
  • score:Reddit点赞分数(仅Reddit数据)。
  • lang:语言代码(始终为 uk)。

项目背景

  • 本数据集是 UkrLM 计划的一部分,该计划旨在为乌克兰语构建基础NLP资源。
  • 相关数据集:
    • ruvimx/UkrLM-social:社交媒体语料库(本数据集)。
    • ruvimx/UkrLM-wiki:乌克兰语维基百科。

使用许可

搜集汇总
数据集介绍
main_image_url
构建方式
在乌克兰语自然语言处理资源建设的背景下,UkrLM-social数据集的构建遵循了严谨的采集与处理流程。其原始文本主要来源于Telegram的公开乌克兰语频道以及Reddit上与乌克兰相关的子论坛,确保了语料的真实性与多样性。构建过程的核心是一个多阶段的清洗管道,包括严格的语言与质量过滤、噪音移除、实体匿名化处理以及文本去重。例如,通过设定最小字符数、西里尔字母比例等阈值来保证文本质量,并系统性地剥离了Markdown格式、广告尾部和表情符号过载的噪声内容,同时对个人信息进行了标准化标记以保护隐私。
特点
该数据集作为UkrLM项目的重要组成部分,其显著特点在于专注于当代乌克兰语的社会媒体语境。语料覆盖了分析、文化和社区讨论等多个主题领域,生动反映了数字空间中的语言实际使用情况。数据集以Parquet格式提供,每条记录均包含清洗后的文本、明确的来源平台标识、频道或子论坛信息以及时间戳等结构化元数据,为研究提供了丰富的上下文。其严格的匿名化处理与去重机制,在保障数据可用性的同时,也兼顾了伦理规范与数据纯净度。
使用方法
该数据集主要服务于语言建模任务,包括预训练与微调,是构建乌克兰语基础模型的关键资源。研究人员可直接加载Parquet格式文件,利用其中的`text`字段作为模型输入。丰富的元数据字段,如`source`、`date`和`score`,支持进行细粒度的分析,例如研究不同平台或时间段的语言风格差异。在使用时,需遵循CC BY 4.0许可协议,并留意原始社交媒体平台自身的服务条款。该数据集可与同项目的维基百科语料库结合使用,以构建更全面、均衡的乌克兰语训练数据。
背景与挑战
背景概述
在自然语言处理领域,低资源语言的模型训练长期面临数据稀缺的困境。UkrLM-social数据集作为UkrLM倡议的核心组成部分,于2024年前后由社区主导构建,旨在为乌克兰语提供高质量的社会媒体文本语料。该数据集系统性地采集了Telegram公开频道和Reddit论坛中乌克兰语相关的讨论内容,覆盖文化、社会分析及社区交流等多个主题,专门用于语言模型的预训练与微调。它的出现填补了乌克兰语在开放网络文本资源方面的空白,为后续开发本土化语言模型奠定了数据基础,显著推动了乌克兰语自然语言处理研究的发展。
当前挑战
该数据集致力于解决乌克兰语语言模型训练中高质量、大规模文本数据匮乏的核心挑战。在构建过程中,团队面临多重技术难题:首先,原始社交媒体文本包含大量噪声,如广告推广、格式标记和表情符号,需设计多阶段清洗流程以确保文本纯净度;其次,为保护用户隐私,必须精准识别并匿名化各类个人信息,包括姓名、联系方式及金融数据;此外,社交媒体文本存在显著的重复与低质量内容,需通过严格的长度、字符比例及去重策略进行过滤。这些挑战共同指向了从非结构化、嘈杂的社交媒体流中构建可靠、合规、适用于模型训练的标准语料的复杂性。
常用场景
经典使用场景
在乌克兰语自然语言处理领域,UkrLM-social数据集为语言模型的预训练与微调提供了关键资源。该数据集从Telegram和Reddit等社交媒体平台精心采集并清洗了乌克兰语文本,覆盖了文化、社区讨论及分析性内容,其规模适中且质量可控,使得研究人员能够基于真实、动态的语料进行模型训练,有效捕捉当代乌克兰语的语言特征与表达习惯,从而为构建高性能的乌克兰语语言模型奠定了数据基础。
衍生相关工作
围绕UkrLM-social数据集,已衍生出多项经典研究工作。例如,结合UkrLM-wiki等配套数据,研究者构建了更全面的乌克兰语预训练模型,提升了在文本分类、机器翻译等下游任务上的性能。同时,该数据集也激发了针对低资源语言模型优化、跨平台语料融合以及隐私保护文本处理等方面的学术探索,为乌克兰语NLP社区的持续创新提供了重要动力。
数据集最近研究
最新研究方向
在乌克兰语自然语言处理领域,随着数字社交媒体的普及,UkrLM-social数据集为语言模型预训练提供了关键资源。该数据集整合了Telegram和Reddit平台的公开文本,经过严格清洗与匿名化处理,支持前沿研究聚焦于低资源语言建模与社会文化分析。当前热点方向包括利用该数据集训练适应乌克兰语社会语境的大语言模型,探索其在虚假信息检测、情感分析及危机沟通中的应用,尤其在俄乌冲突背景下,这类研究对维护信息生态与语言技术主权具有显著意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作