five

ajesujoba/yoruba_wordsim353|语义相似度数据集|多语言处理数据集

收藏
hugging_face2024-01-18 更新2024-05-25 收录
语义相似度
多语言处理
下载链接:
https://hf-mirror.com/datasets/ajesujoba/yoruba_wordsim353
下载链接
链接失效反馈
资源简介:
该数据集是Wordsim-353的约鲁巴语翻译版本,包含353个词对。每个词对包括原始英语单词及其约鲁巴语翻译,并附有相似度评分。数据集的结构包括五个字段:english1(第一个英语单词)、english2(第二个英语单词)、yoruba1(第一个约鲁巴语单词)、yoruba2(第二个约鲁巴语单词)和similarity(相似度评分)。数据集的大小为19,299字节,包含353个示例。

该数据集是Wordsim-353的约鲁巴语翻译版本,包含353个词对。每个词对包括原始英语单词及其约鲁巴语翻译,并附有相似度评分。数据集的结构包括五个字段:english1(第一个英语单词)、english2(第二个英语单词)、yoruba1(第一个约鲁巴语单词)、yoruba2(第二个约鲁巴语单词)和similarity(相似度评分)。数据集的大小为19,299字节,包含353个示例。
提供机构:
ajesujoba
原始信息汇总

数据集概述

数据集描述

  • 数据集名称: Wordsim-353 In Yorùbá (YorubaWordsim353)
  • 数据集摘要: 一个将wordsim-353词对相似度数据集翻译成Yorùbá语的数据集。
  • 支持的任务和排行榜: [更多信息需补充]
  • 语言: Yorùbá (ISO 639-1: yo)

数据集结构

数据实例

每个实例包含一对词及其相似度。数据集包含原始英语词(来自wordsim-353)及其Yorùbá语翻译。

数据字段

  • english1: 词对中的第一个词;原始英语词
  • english2: 词对中的第二个词;原始英语词
  • yoruba1: 词对中的第一个词;Yorùbá语翻译
  • yoruba2: 词对中的第二个词;Yorùbá语翻译
  • similarity: 根据英语数据集的相似度评分

数据分割

  • 测试集:
    • 字节数: 19299
    • 样本数: 353

数据集创建

策划理由

[更多信息需补充]

源数据

初始数据收集和规范化

[更多信息需补充]

源语言生产者

[更多信息需补充]

注释

注释过程

[更多信息需补充]

注释者

[更多信息需补充]

个人和敏感信息

[更多信息需补充]

使用数据的注意事项

数据集的社会影响

[更多信息需补充]

偏见的讨论

[更多信息需补充]

其他已知限制

[更多信息需补充]

附加信息

数据集策展人

[更多信息需补充]

许可信息

[更多信息需补充]

引用信息

[更多信息需补充]

贡献

感谢@michael-aloys添加此数据集。

用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作