davmel/ka_homonym_disambiguation
收藏Hugging Face2024-02-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/davmel/ka_homonym_disambiguation
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含用于格鲁吉亚语同音异义词消歧任务的所有数据。目前,数据集仅考虑了同音词ბარი及其不同的语法形式,共包含7522个句子。数据集中的dataset.parquet文件包括使用ბარი作为铲子、低地、咖啡馆的句子,以及在其他上下文中使用该词的句子,分别标记为0、1、2和3。此外,full-homonym-sentences-ბარ.txt文件包含约28000个未标记的句子,这些句子包含ბარი及其各种语法形式,且每个句子的长度限制在13个词以内,同音词位于句子中间。
该数据集包含用于格鲁吉亚语同音异义词消歧任务的所有数据。目前,数据集仅考虑了同音词ბარი及其不同的语法形式,共包含7522个句子。数据集中的dataset.parquet文件包括使用ბარი作为铲子、低地、咖啡馆的句子,以及在其他上下文中使用该词的句子,分别标记为0、1、2和3。此外,full-homonym-sentences-ბარ.txt文件包含约28000个未标记的句子,这些句子包含ბარი及其各种语法形式,且每个句子的长度限制在13个词以内,同音词位于句子中间。
提供机构:
davmel
原始信息汇总
格鲁吉亚同音词消歧数据集
数据集概述
该数据集用于格鲁吉亚语同音词消歧任务,专注于同音词 "ბარი" 及其不同语法形式,共包含 7522 个句子。
数据集内容
-
dataset.parquet 文件包含以下内容:
- 763 个句子中 "ბარი" 作为 "铲子",标记为 0
- 1846 个句子中 "ბარი" 作为 "低地",标记为 1
- 3320 个句子中 "ბარი" 作为 "咖啡馆",标记为 2
- 1593 个句子中 "ბარი" 在不同语境中使用,标记为 3(尽管这些句子可以根据同音词的定义进一步分类,但在此项目中忽略了其他用法)
-
full-homonym-sentences-ბარ.txt 文件包含包含同音词 "ბარი" 及其各种语法形式的句子,这些句子长度限制在最多 13 个词,同音词位于句子中间,数量约为 28000 个,未标记。
数据集字段
- homonym_index 列包含句子中同音词的索引,即同音词在句子中的位置。



