thebogko/bulgarian-dictionary-2024

Name: thebogko/bulgarian-dictionary-2024
Creator: thebogko
Published: 2024-03-14 15:27:11
License: 暂无描述

Hugging Face2024-03-14 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/thebogko/bulgarian-dictionary-2024

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含保加利亚语单字词条的词典，每个词条都带有相应的词性标签。数据集支持词性标注任务，即对序列中的每个词进行分类。每个数据实例包含一个词和其对应的词性标签，词性标签共有11种。数据集没有预定义的分割，开发者可以根据任务需求自行分割。数据集的创建动机是为了填补保加利亚语词性标注资源的空白，并鼓励比较不同的模型。数据来源包括多个保加利亚语词典，数据收集和标准化过程包括从这些词典中收集词和词性标签数据，并将其映射到预定的11种标签上。数据集的使用对社会有积极影响，但也存在一些偏见和局限性，如可能缺少新词。

提供机构：

thebogko

原始信息汇总

Bulgarian Dictionary 2024 数据集概述

数据集基本信息

许可证: Apache-2.0
任务类别:
- 词元分类 (token-classification)
支持语言:
- 保加利亚语 (bg)
数据集大小:
- 1M<n<10M

数据集描述

数据集概要

这是一个包含单个保加利亚语词汇的词典，每个词汇都标有适当的词性标签。

支持的任务

token-classification: 用于训练模型对序列中的每个词元进行分类。

语言支持

bg: 仅支持保加利亚语。

数据集结构

数据实例

每个实例包含一个 word（单个词汇）和一个 tag（词性标签），词性标签属于11个预定义类别之一。

数据字段

token: 单个词汇的字符串序列。
tag: 表示词性标签的大写字母，共有11种标签：
1. N (名词)
2. A (形容词)
3. V (动词)
4. D (副词)
5. P (代词)
6. T (小品词)
7. M (数词)
8. C (连词)
9. I (感叹词)
10. R (介词)
11. H (混合词或专有名词)

数据分割

数据集未预先分割，开发者可根据任务需求自由选择分割方式。

数据集创建

来源数据

数据来源于以下资源：

初始数据收集和规范化

数据收集过程包括：
1. 从上述词典收集词汇及其词性标签。
2. 将词性标签映射到预定义的11个标签。
3. 将词汇分解为单个词元并应用标签。
4. 移除重复项。

使用数据时的考虑

社会影响: 对语言学习者和词性标注错误修正领域的开发者有益。
偏见讨论: 由于仅使用源词典中已有的名称和词汇，源词典中的偏见被继承。
其他已知限制: 语言不断演变，许多新词汇可能未被包含。

5,000+

优质数据集

54 个

任务类型

进入经典数据集