DGurgurov/maltese_embeddings
收藏Hugging Face2024-05-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DGurgurov/maltese_embeddings
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
language:
- mt
tags:
- embeddings
- maltese
---
### Dataset Summary
This repository contains three distinct datasets focusing on Maltese word embeddings:
1. **GloVe Maltese Word Embeddings**
Embeddings generated using GloVe on the "korpus_malti" dataset, the largest Maltese corpus available.
2. **Word2Vec Maltese Word Embeddings**
Word embeddings for Maltese obtained using Word2Vec trained on the "korpus_malti" dataset.
3. **PPMI Maltese Word Embeddings**
Pointwise Mutual Information (PPMI) based word embeddings generated from ConceptNet data via SVD on the co-occurrence matrix.
### Languages
- Maltese
## Dataset Creation
- GloVe and Word2Vec embeddings were trained using the largest Maltese dataset, "korpus_malti".
- Details of the training parameters for both GloVe and Word2Vec models can be found in the provided scripts.
- PPMI embeddings were trained using ConceptNet data and applying SVD on the co-occurrence matrix.
### Contributors
- Daniil Gurgurov
提供机构:
DGurgurov
原始信息汇总
数据集概述
本仓库包含三个专注于马耳他语词嵌入的不同数据集:
-
GloVe 马耳他语词嵌入 使用 GloVe 在最大的马耳他语语料库 "korpus_malti" 上生成的词嵌入。
-
Word2Vec 马耳他语词嵌入 使用 Word2Vec 在 "korpus_malti" 数据集上训练得到的马耳他语词嵌入。
-
PPMI 马耳他语词嵌入 基于点互信息(PPMI)的词嵌入,通过在共现矩阵上应用 SVD 从 ConceptNet 数据生成。
语言
- 马耳他语
数据集创建
- GloVe 和 Word2Vec 嵌入使用最大的马耳他语数据集 "korpus_malti" 进行训练。
- GloVe 和 Word2Vec 模型的训练参数细节可在提供的脚本中找到。
- PPMI 嵌入使用 ConceptNet 数据并通过在共现矩阵上应用 SVD 进行训练。
贡献者
- Daniil Gurgurov



