thebogko/bulgarian-dictionary-2024
收藏Hugging Face2024-03-14 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/thebogko/bulgarian-dictionary-2024
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含保加利亚语单字词条的词典,每个词条都带有相应的词性标签。数据集支持词性标注任务,即对序列中的每个词进行分类。每个数据实例包含一个词和其对应的词性标签,词性标签共有11种。数据集没有预定义的分割,开发者可以根据任务需求自行分割。数据集的创建动机是为了填补保加利亚语词性标注资源的空白,并鼓励比较不同的模型。数据来源包括多个保加利亚语词典,数据收集和标准化过程包括从这些词典中收集词和词性标签数据,并将其映射到预定的11种标签上。数据集的使用对社会有积极影响,但也存在一些偏见和局限性,如可能缺少新词。
这是一个包含保加利亚语单字词条的词典,每个词条都带有相应的词性标签。数据集支持词性标注任务,即对序列中的每个词进行分类。每个数据实例包含一个词和其对应的词性标签,词性标签共有11种。数据集没有预定义的分割,开发者可以根据任务需求自行分割。数据集的创建动机是为了填补保加利亚语词性标注资源的空白,并鼓励比较不同的模型。数据来源包括多个保加利亚语词典,数据收集和标准化过程包括从这些词典中收集词和词性标签数据,并将其映射到预定的11种标签上。数据集的使用对社会有积极影响,但也存在一些偏见和局限性,如可能缺少新词。
提供机构:
thebogko
原始信息汇总
Bulgarian Dictionary 2024 数据集概述
数据集基本信息
- 许可证: Apache-2.0
- 任务类别:
- 词元分类 (
token-classification)
- 词元分类 (
- 支持语言:
- 保加利亚语 (
bg)
- 保加利亚语 (
- 数据集大小:
- 1M<n<10M
数据集描述
数据集概要
- 这是一个包含单个保加利亚语词汇的词典,每个词汇都标有适当的词性标签。
支持的任务
token-classification: 用于训练模型对序列中的每个词元进行分类。
语言支持
bg: 仅支持保加利亚语。
数据集结构
数据实例
- 每个实例包含一个
word(单个词汇)和一个tag(词性标签),词性标签属于11个预定义类别之一。
数据字段
token: 单个词汇的字符串序列。tag: 表示词性标签的大写字母,共有11种标签:- N (名词)
- A (形容词)
- V (动词)
- D (副词)
- P (代词)
- T (小品词)
- M (数词)
- C (连词)
- I (感叹词)
- R (介词)
- H (混合词或专有名词)
数据分割
- 数据集未预先分割,开发者可根据任务需求自由选择分割方式。
数据集创建
来源数据
- 数据来源于以下资源:
初始数据收集和规范化
- 数据收集过程包括:
- 从上述词典收集词汇及其词性标签。
- 将词性标签映射到预定义的11个标签。
- 将词汇分解为单个词元并应用标签。
- 移除重复项。
使用数据时的考虑
- 社会影响: 对语言学习者和词性标注错误修正领域的开发者有益。
- 偏见讨论: 由于仅使用源词典中已有的名称和词汇,源词典中的偏见被继承。
- 其他已知限制: 语言不断演变,许多新词汇可能未被包含。



