simbolo-ai/hola
收藏Hugging Face2024-02-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/simbolo-ai/hola
下载链接
链接失效反馈官方服务:
资源简介:
---
license: gpl
language:
- my
---
### Hola: Multilingual-Text-Generation-(LLM) and Language-Classification-Public-Dataset
Release Date: 2/12/2024 (Myanmar Union Day)
### <b> Overview </b>
Hola dataset contains data from 11 languages, including English, Burmese, Japanese, Spanish, Chinese (Traditional), Korean, Mon, Paoh, etc. And the data was crawled from Wikipedia. Each sample is a sentence data with a label of ISO 639-1 code of respective language, e.g. en, my, ja, es, zh, ko, etc.
### <b> Data </b>
Each training sample and testing sample is a sentence data like this:
<table>
<tr>
<th> text </th>
</tr>
<tr>
<td>
Human evolution is the evolutionary process within the history of primates that led to the emergence of Homo sapiens as a distinct species of the hominid family, which includes all the great apes
</td>
</tr>
<tr>
<td>
ဇီဝဗေဒ ပညာတွင် ဆင့်ကဲပြောင်းလဲမှုဖြစ်စဉ် သို့မဟုတ် အီဗော်လူးရှင်း ဆိုသည်မှာ သက်ရှိအစုအဝေးများတွင် တွေ့ရသော မျိုးရိုးလိုက်သည့် လက္ခဏာရပ်များ အချိန်နှင့် အမျှ ပြောင်းလဲသွားခြင်းကို ခေါ်ဆိုခြင်း ဖြစ်သည်
</td>
</tr>
<tr>
<td>
人類の進化(じんるいのしんか、英: human evolution)とは、他と異なる独立した生物種としての現生人類(英名:anatomically modern humans〈意:解剖学的現代人〉、学名:Homo sapiens〈ホモ・サピエンス〉、他説では Homo sapiens sapiens )を主題としながら、これが属する系統群(クレード)全体を見渡そうとする概念における、当該系統群が辿ってきた生物学的進化をいう
</td>
</tr>
<tr>
<td>
La evolución humana u hominización es el proceso de evolución biológica de la especie humana desde sus ancestros hasta la actualidad
</td>
</tr>
<tr>
<td>
人類演化过去一直指的是在旧的解剖学意义上的,根據演化學說,所做出的各種關於现代人出现的假设
</td>
</tr>
<tr>
<td>
인류의 진화는 사람이 하나의 구분된 종으로 나타나게 되는 과정과 발전 또는 진화 과정이다
</td>
</tr>
</table>
Each training sample and testing sample is labeled with one of the following labels:
<table>
<tr>
<th> Label </th>
<th> Description </th>
</tr>
<tr>
<td> en </td>
<td> English </td>
</tr>
<tr>
<td> my </td>
<td> Myanmar </td>
</tr>
<tr>
<td> ja </td>
<td> Japan </td>
</tr>
<tr>
<td> es </td>
<td> Spanish </td>
</tr>
<tr>
<td> zh </td>
<td> Simplified Chinese </td>
</tr>
<tr>
<td> ko </td>
<td> Korean </td>
</tr>
<tr>
<td> si </td>
<td> Sinhalese </td>
</tr>
<tr>
<td> ta </td>
<td> Tamil </td>
</tr>
<tr>
<td> sw </td>
<td> Swahili </td>
</tr>
<tr>
<td> mnw </td>
<td> Mon </td>
</tr>
<tr>
<td> blk </td>
<td> Paoh </td>
</tr>
</table>
### How to load the dataset:
```
from datasets import load_dataset
dataset = load_dataset("simbolo-ai/hola")
```
### Contributors:
Main Contributor: [Sa Phyo Thu Htet](https://github.com/SaPhyoThuHtet)
Other Contributors: Kaung Khant Ko Ko, Phuu Pwint Thinzar Kyaing, Yin Htwe
### How to Cite:
```bibtex
@misc{wiki-burmese-sentences,
author = {{Sa Phyo Thu Htet}},
title = {hola},
url = {https://huggingface.co/datasets/simbolo-ai/hola},
urldate = {2024-2-12},
date = {2024-2-12}
}
```
提供机构:
simbolo-ai
原始信息汇总
Hola 数据集概述
概览
Hola 数据集包含来自 11 种语言的数据,包括英语、缅甸语、日语、西班牙语、繁体中文、韩语、孟语、波族语等。数据从维基百科爬取,每个样本是一个带有相应语言 ISO 639-1 代码标签的句子,例如 en、my、ja、es、zh、ko 等。
数据结构
每个训练样本和测试样本是一个句子数据,如下所示:
| 文本 |
|---|
| Human evolution is the evolutionary process within the history of primates that led to the emergence of Homo sapiens as a distinct species of the hominid family, which includes all the great apes |
| ဇီဝဗေဒ ပညာတွင် ဆင့်ကဲပြောင်းလဲမှုဖြစ်စဉ် သို့မဟုတ် အီဗော်လူးရှင်း ဆိုသည်မှာ သက်ရှိအစုအဝေးများတွင် တွေ့ရသော မျိုးရိုးလိုက်သည့် လက္ခဏာရပ်များ အချိန်နှင့် အမျှ ပြောင်းလဲသွားခြင်းကို ခေါ်ဆိုခြင်း ဖြစ်သည် |
| 人類の進化(じんるいのしんか、英: human evolution)とは、他と異なる独立した生物種としての現生人類(英名:anatomically modern humans〈意:解剖学的現代人〉、学名:Homo sapiens〈ホモ・サピエンス〉、他説では Homo sapiens sapiens )を主題としながら、これが属する系統群(クレード)全体を見渡そうとする概念における、当該系統群が辿ってきた生物学的進化をいう |
| La evolución humana u hominización es el proceso de evolución biológica de la especie humana desde sus ancestros hasta la actualidad |
| 人類演化过去一直指的是在旧的解剖学意义上的,根據演化學說,所做出的各種關於现代人出现的假设 |
| 인류의 진화는 사람이 하나의 구분된 종으로 나타나게 되는 과정과 발전 또는 진화 과정이다 |
每个训练样本和测试样本都带有以下标签之一:
| 标签 | 描述 |
|---|---|
| en | 英语 |
| my | 缅甸语 |
| ja | 日语 |
| es | 西班牙语 |
| zh | 简体中文 |
| ko | 韩语 |
| si | 僧伽罗语 |
| ta | 泰米尔语 |
| sw | 斯瓦希里语 |
| mnw | 孟语 |
| blk | 波族语 |
数据加载方法
python from datasets import load_dataset dataset = load_dataset("simbolo-ai/hola")



