NorGLM/NO-Alpaca-Plus

Name: NorGLM/NO-Alpaca-Plus
Creator: NorGLM
Published: 2024-03-10 17:13:02
License: 暂无描述

Hugging Face2024-03-10 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/NorGLM/NO-Alpaca-Plus

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: cc-by-nc-sa-4.0 language: - 'no' --- # Dataset Card ## Dataset Summary NO-Alpaca-Plus includes two parts: NO-Alpaca is from [NB Alpaca Norwegian Bokmål](https://huggingface.co/datasets/NbAiLab/norwegian-alpaca), a machine translated Norwegian Bokmål instruction dataset originated from English [Alpaca](https://huggingface.co/datasets/tatsu-lab/alpaca) Instruction dataset. And several human annotated Norwegian Instruction dataset pertaining to Norwegian culture and special expressions. ## Language The data in NO-Alpaca-Plus are in Norwegian Bokmål. ## Data Instance The data instances in *instruction_culture.numbers* and *instruction_special_expression.numbers* including **instruction**, **input** and **output**. An example is as follows: ``` { instruction: Baser på følgende tekst, hvordan synes personen det er å jobbe i Norge? input: Jeg trives stort med å jobbe i Norge. Mange vil kanskje mene at været er dårlig, nordmenn er kalde og livskvaliteten deretter er dårlig, selv om man tjener bra. Jeg tror imidlertid dette er å male fanden på veggen. Nordmenn er ulike og været varier, noe som for meg gjør livet mer innholdsrikt! I tillegg er det stort fokus på fritid, slik at man ikke møter veggen og blir utbrent av å jobbe for mye. output: Personen trives godt med å jobbe i Norge, spesielt trekker personen fram balansen mellom jobb og fritid. Likevel viser personen forståelse for at alt ikke er perfekt. } ``` ## Data Split NO-Alpaca is based on 80:20 split for fine-tuning and evaluating NorGLMs. Data in *instruction_culture.csv* and *instruction_special_expression.csv* are used for case study to test the ability of language models in understnading Norwegian cultures. *instruction_fine_tune.csv* includes all human annotated instruction samples. | | #samples | |-------|---------------------| | instruction_culture | 37 | | instruction_special_expression | 65 | | instruction_fine_tune | 102 | ## Licensing Information NO-Alpaca is following its original license in [link](https://huggingface.co/datasets/NbAiLab/norwegian-alpaca). Our human-annotated data are following cc-by-nc-sa-4.0 license. ## Citation Information We encourage to cite original Alpaca dataset: ``` @misc{alpaca, author = {Rohan Taori and Ishaan Gulrajani and Tianyi Zhang and Yann Dubois and Xuechen Li and Carlos Guestrin and Percy Liang and Tatsunori B. Hashimoto }, title = {Stanford Alpaca: An Instruction-following LLaMA model}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {\url{https://github.com/tatsu-lab/stanford_alpaca}}, } ```

提供机构：

NorGLM

原始信息汇总

数据集卡片

数据集概述

NO-Alpaca-Plus 包含两部分：NO-Alpaca 来自 NB Alpaca Norwegian Bokmål，是一个从英语 Alpaca 指令数据集机器翻译而来的挪威博克马尔语指令数据集。以及一些与挪威文化和特殊表达相关的人工标注挪威指令数据集。

语言

NO-Alpaca-Plus 中的数据为挪威博克马尔语。

数据实例

instruction_culture.numbers 和 instruction_special_expression.numbers 中的数据实例包括 instruction、input 和 output。例如： json { "instruction": "Baser på følgende tekst, hvordan synes personen det er å jobbe i Norge?", "input": "Jeg trives stort med å jobbe i Norge. Mange vil kanskje mene at været er dårlig, nordmenn er kalde og livskvaliteten deretter er dårlig, selv om man tjener bra. Jeg tror imidlertid dette er å male fanden på veggen. Nordmenn er ulike og været varier, noe som for meg gjør livet mer innholdsrikt! I tillegg er det stort fokus på fritid, slik at man ikke møter veggen og blir utbrent av å jobbe for mye.", "output": "Personen trives godt med å jobbe i Norge, spesielt trekker personen fram balansen mellom jobb og fritid. Likevel viser personen forståelse for at alt ikke er perfekt." }

数据分割

NO-Alpaca 基于 80:20 的比例进行微调和评估 NorGLMs。

instruction_culture.csv 和 instruction_special_expression.csv 中的数据用于案例研究，以测试语言模型对挪威文化的理解能力。instruction_fine_tune.csv 包含所有人工标注的指令样本。

数据集	样本数量
instruction_culture	37
instruction_special_expression	65
instruction_fine_tune	102

许可信息

NO-Alpaca 遵循其原始许可证。

我们的人工标注数据遵循 cc-by-nc-sa-4.0 许可证。

引用信息

我们鼓励引用原始 Alpaca 数据集： bibtex @misc{alpaca, author = {Rohan Taori and Ishaan Gulrajani and Tianyi Zhang and Yann Dubois and Xuechen Li and Carlos Guestrin and Percy Liang and Tatsunori B. Hashimoto }, title = {Stanford Alpaca: An Instruction-following LLaMA model}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/tatsu-lab/stanford_alpaca}}, }

5,000+

优质数据集

54 个

任务类型

进入经典数据集