five

thebogko/bulgarian-dictionary-2024

收藏
Hugging Face2024-03-14 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/thebogko/bulgarian-dictionary-2024
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含保加利亚语单字词条的词典,每个词条都带有相应的词性标签。数据集支持词性标注任务,即对序列中的每个词进行分类。每个数据实例包含一个词和其对应的词性标签,词性标签共有11种。数据集没有预定义的分割,开发者可以根据任务需求自行分割。数据集的创建动机是为了填补保加利亚语词性标注资源的空白,并鼓励比较不同的模型。数据来源包括多个保加利亚语词典,数据收集和标准化过程包括从这些词典中收集词和词性标签数据,并将其映射到预定的11种标签上。数据集的使用对社会有积极影响,但也存在一些偏见和局限性,如可能缺少新词。

这是一个包含保加利亚语单字词条的词典,每个词条都带有相应的词性标签。数据集支持词性标注任务,即对序列中的每个词进行分类。每个数据实例包含一个词和其对应的词性标签,词性标签共有11种。数据集没有预定义的分割,开发者可以根据任务需求自行分割。数据集的创建动机是为了填补保加利亚语词性标注资源的空白,并鼓励比较不同的模型。数据来源包括多个保加利亚语词典,数据收集和标准化过程包括从这些词典中收集词和词性标签数据,并将其映射到预定的11种标签上。数据集的使用对社会有积极影响,但也存在一些偏见和局限性,如可能缺少新词。
提供机构:
thebogko
原始信息汇总

Bulgarian Dictionary 2024 数据集概述

数据集基本信息

  • 许可证: Apache-2.0
  • 任务类别:
    • 词元分类 (token-classification)
  • 支持语言:
    • 保加利亚语 (bg)
  • 数据集大小:
    • 1M<n<10M

数据集描述

数据集概要

  • 这是一个包含单个保加利亚语词汇的词典,每个词汇都标有适当的词性标签。

支持的任务

  • token-classification: 用于训练模型对序列中的每个词元进行分类。

语言支持

  • bg: 仅支持保加利亚语。

数据集结构

数据实例

  • 每个实例包含一个 word(单个词汇)和一个 tag(词性标签),词性标签属于11个预定义类别之一。

数据字段

  • token: 单个词汇的字符串序列。
  • tag: 表示词性标签的大写字母,共有11种标签:
    1. N (名词)
    2. A (形容词)
    3. V (动词)
    4. D (副词)
    5. P (代词)
    6. T (小品词)
    7. M (数词)
    8. C (连词)
    9. I (感叹词)
    10. R (介词)
    11. H (混合词或专有名词)

数据分割

  • 数据集未预先分割,开发者可根据任务需求自由选择分割方式。

数据集创建

来源数据

初始数据收集和规范化

  • 数据收集过程包括:
    1. 从上述词典收集词汇及其词性标签。
    2. 将词性标签映射到预定义的11个标签。
    3. 将词汇分解为单个词元并应用标签。
    4. 移除重复项。

使用数据时的考虑

  • 社会影响: 对语言学习者和词性标注错误修正领域的开发者有益。
  • 偏见讨论: 由于仅使用源词典中已有的名称和词汇,源词典中的偏见被继承。
  • 其他已知限制: 语言不断演变,许多新词汇可能未被包含。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作