five

davmel/ka_homonym_disambiguation

收藏
Hugging Face2024-02-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/davmel/ka_homonym_disambiguation
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含用于格鲁吉亚语同音异义词消歧任务的所有数据。目前,数据集仅考虑了同音词ბარი及其不同的语法形式,共包含7522个句子。数据集中的dataset.parquet文件包括使用ბარი作为铲子、低地、咖啡馆的句子,以及在其他上下文中使用该词的句子,分别标记为0、1、2和3。此外,full-homonym-sentences-ბარ.txt文件包含约28000个未标记的句子,这些句子包含ბარი及其各种语法形式,且每个句子的长度限制在13个词以内,同音词位于句子中间。

该数据集包含用于格鲁吉亚语同音异义词消歧任务的所有数据。目前,数据集仅考虑了同音词ბარი及其不同的语法形式,共包含7522个句子。数据集中的dataset.parquet文件包括使用ბარი作为铲子、低地、咖啡馆的句子,以及在其他上下文中使用该词的句子,分别标记为0、1、2和3。此外,full-homonym-sentences-ბარ.txt文件包含约28000个未标记的句子,这些句子包含ბარი及其各种语法形式,且每个句子的长度限制在13个词以内,同音词位于句子中间。
提供机构:
davmel
原始信息汇总

格鲁吉亚同音词消歧数据集

数据集概述

该数据集用于格鲁吉亚语同音词消歧任务,专注于同音词 "ბარი" 及其不同语法形式,共包含 7522 个句子。

数据集内容

  • dataset.parquet 文件包含以下内容:

    • 763 个句子中 "ბარი" 作为 "铲子",标记为 0
    • 1846 个句子中 "ბარი" 作为 "低地",标记为 1
    • 3320 个句子中 "ბარი" 作为 "咖啡馆",标记为 2
    • 1593 个句子中 "ბარი" 在不同语境中使用,标记为 3(尽管这些句子可以根据同音词的定义进一步分类,但在此项目中忽略了其他用法)
  • full-homonym-sentences-ბარ.txt 文件包含包含同音词 "ბარი" 及其各种语法形式的句子,这些句子长度限制在最多 13 个词,同音词位于句子中间,数量约为 28000 个,未标记。

数据集字段

  • homonym_index 列包含句子中同音词的索引,即同音词在句子中的位置。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作