five

sofia-uni/toxic-data-bg

收藏
Hugging Face2025-04-04 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/sofia-uni/toxic-data-bg
下载链接
链接失效反馈
官方服务:
资源简介:
toxic-data-bg数据集是一个包含4384个保加利亚语人工注释句子的文本分类数据集,分为有毒语言、医学术语、非有毒语言和与少数民族社区相关的术语四个类别。该数据集是Bulgarian Hate speech detection数据集的扩展,来源于多个保加利亚语论坛。

The toxic-data-bg dataset is a text classification dataset containing 4,384 manually annotated Bulgarian sentences across four categories: toxic language, medical terminology, non-toxic language, and terms related to minority communities. This dataset is an extension of the Bulgarian Hate speech detection dataset, sourced from various Bulgarian forums.
提供机构:
sofia-uni
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作