five

DGurgurov/maltese_embeddings

收藏
Hugging Face2024-05-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DGurgurov/maltese_embeddings
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: mit language: - mt tags: - embeddings - maltese --- ### Dataset Summary This repository contains three distinct datasets focusing on Maltese word embeddings: 1. **GloVe Maltese Word Embeddings** Embeddings generated using GloVe on the "korpus_malti" dataset, the largest Maltese corpus available. 2. **Word2Vec Maltese Word Embeddings** Word embeddings for Maltese obtained using Word2Vec trained on the "korpus_malti" dataset. 3. **PPMI Maltese Word Embeddings** Pointwise Mutual Information (PPMI) based word embeddings generated from ConceptNet data via SVD on the co-occurrence matrix. ### Languages - Maltese ## Dataset Creation - GloVe and Word2Vec embeddings were trained using the largest Maltese dataset, "korpus_malti". - Details of the training parameters for both GloVe and Word2Vec models can be found in the provided scripts. - PPMI embeddings were trained using ConceptNet data and applying SVD on the co-occurrence matrix. ### Contributors - Daniil Gurgurov
提供机构:
DGurgurov
原始信息汇总

数据集概述

本仓库包含三个专注于马耳他语词嵌入的不同数据集:

  1. GloVe 马耳他语词嵌入 使用 GloVe 在最大的马耳他语语料库 "korpus_malti" 上生成的词嵌入。

  2. Word2Vec 马耳他语词嵌入 使用 Word2Vec 在 "korpus_malti" 数据集上训练得到的马耳他语词嵌入。

  3. PPMI 马耳他语词嵌入 基于点互信息(PPMI)的词嵌入,通过在共现矩阵上应用 SVD 从 ConceptNet 数据生成。

语言

  • 马耳他语

数据集创建

  • GloVe 和 Word2Vec 嵌入使用最大的马耳他语数据集 "korpus_malti" 进行训练。
  • GloVe 和 Word2Vec 模型的训练参数细节可在提供的脚本中找到。
  • PPMI 嵌入使用 ConceptNet 数据并通过在共现矩阵上应用 SVD 进行训练。

贡献者

  • Daniil Gurgurov
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作