zan/lima-ja
收藏Hugging Face2023-07-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zan/lima-ja
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-nc-sa-4.0
language:
- ja
---
# Dataset Card for LIMA-JA
## Dataset Description
This is Japanese LIMA dataset, which is translated from the [LIMA dataset](https://huggingface.co/datasets/GAIR/lima) that Meta's [LIMA model](https://arxiv.org/abs/2305.11206) (Zhou et al., 2023) was trained on.
In this process, after the Japanese translation is performed by ChatGPT, I am making some minor adjustments.
## Usage
```python
>>> from datasets import load_dataset
>>> dataset = load_dataset('zan/lima-ja')
>>> # dataset = load_dataset('zan/lima-ja', "v1")
```
```python
>>> dataset["train"][0]
{'conversations': ['脳細胞は移動することができるのでしょうか? 移動とは、遠距離の移動(可能ならば脳内のみで)を指します。',
'この質問は比較的広範であり、脳は単にニューロンだけでなく、グリア細胞(支持細胞)や前ミトーシスの神経幹細胞も含まれることを考慮する必要があります。さらに、重要な同僚科学者たちが指摘しているように、発生段階も非常に重要であり、発達中の胎児の脳は成人の脳とは非常に異なります。\n\nしかし、さまざまな出版物を精査した結果、この質問の答えは実際には非常に単純であることがわかりました。結論として、脳細胞は移動します。\n\n成人の脳では、グリア細胞が脳内を移動します(Klämbt、2009年)。グリア細胞は多くの機能に関与していますが、移動するグリア細胞の注目すべき例は、標的の軸索を見つけるために比較的長距離を移動し、それに巻きついて絶縁性のミエリン鞘を形成するオリゴデンドロサイトです(TsaiとMiller、2002年)。\n\n神経幹細胞は損傷に対応して長距離を移動します(Imitola et al.、2004年)し、特定の幹細胞の位置(例えば、海馬や脳室下帯)から他の領域に移動します(Clarke、2003年)。\n\nミトーシス後でありながら未分化のニューロンは、魚(Scott et al.、2012年)や哺乳類、および非人猿でも成人の脳内を移動することが示されています(Sawada et al.、2011年)。\n\n驚くことではありませんが、グリア細胞、幹細胞、およびニューロンは胎児の発生中も移動します。特に、末梢機能を果たすために運命づけられた分裂後のニューロンは、神経堤から標的の位置まで比較的長い距離を移動しなければなりません(Neuroscience、第2版、Neuronal Migration)。'],
'source': 'stackexchange'}
```
## Version Description
## v1
A version that has been modified by adding about 100 changes after being translated by ChatGPT.
## v2
more modified version
(Coming soon...)
## License
If the source data of LIMA has a stricter license than CC BY-NC-SA, the LIMA dataset follows the same. Otherwise, it follows the CC BY-NC-SA license.
## Citation Information
```
@InProceedings{huggingface:dataset,
title = {LIMA-JA: Japanese LIMA Dataset for Efficient Instruction-tuning},
author = {zan},
year = {2023}
}
```
提供机构:
zan
原始信息汇总
数据集概述
数据集名称
LIMA-JA
数据集描述
LIMA-JA是一个日语数据集,由Meta的LIMA模型训练所用的LIMA数据集翻译而来。翻译过程中,首先使用ChatGPT进行日语翻译,随后进行了一些微调。
数据集版本
- v1: 在ChatGPT翻译后,增加了约100处修改。
- v2: 更进一步的修改版本(即将发布)。
数据集使用
python from datasets import load_dataset dataset = load_dataset(zan/lima-ja)
数据集示例
python dataset["train"][0]
示例内容包括对话和来源信息。
数据集许可证
遵循CC BY-NC-SA 4.0许可证,除非源数据集有更严格的许可证,此时遵循源数据集的许可证。
引用信息
@InProceedings{huggingface:dataset, title = {LIMA-JA: Japanese LIMA Dataset for Efficient Instruction-tuning}, author = {zan}, year = {2023} }



