five

NorGLM/NO-Alpaca-Plus

收藏
Hugging Face2024-03-10 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/NorGLM/NO-Alpaca-Plus
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-nc-sa-4.0 language: - 'no' --- # Dataset Card ## Dataset Summary NO-Alpaca-Plus includes two parts: NO-Alpaca is from [NB Alpaca Norwegian Bokmål](https://huggingface.co/datasets/NbAiLab/norwegian-alpaca), a machine translated Norwegian Bokmål instruction dataset originated from English [Alpaca](https://huggingface.co/datasets/tatsu-lab/alpaca) Instruction dataset. And several human annotated Norwegian Instruction dataset pertaining to Norwegian culture and special expressions. ## Language The data in NO-Alpaca-Plus are in Norwegian Bokmål. ## Data Instance The data instances in *instruction_culture.numbers* and *instruction_special_expression.numbers* including **instruction**, **input** and **output**. An example is as follows: ``` { instruction: Baser på følgende tekst, hvordan synes personen det er å jobbe i Norge? input: Jeg trives stort med å jobbe i Norge. Mange vil kanskje mene at været er dårlig, nordmenn er kalde og livskvaliteten deretter er dårlig, selv om man tjener bra. Jeg tror imidlertid dette er å male fanden på veggen. Nordmenn er ulike og været varier, noe som for meg gjør livet mer innholdsrikt! I tillegg er det stort fokus på fritid, slik at man ikke møter veggen og blir utbrent av å jobbe for mye. output: Personen trives godt med å jobbe i Norge, spesielt trekker personen fram balansen mellom jobb og fritid. Likevel viser personen forståelse for at alt ikke er perfekt. } ``` ## Data Split NO-Alpaca is based on 80:20 split for fine-tuning and evaluating NorGLMs. Data in *instruction_culture.csv* and *instruction_special_expression.csv* are used for case study to test the ability of language models in understnading Norwegian cultures. *instruction_fine_tune.csv* includes all human annotated instruction samples. | | #samples | |-------|---------------------| | instruction_culture | 37 | | instruction_special_expression | 65 | | instruction_fine_tune | 102 | ## Licensing Information NO-Alpaca is following its original license in [link](https://huggingface.co/datasets/NbAiLab/norwegian-alpaca). Our human-annotated data are following cc-by-nc-sa-4.0 license. ## Citation Information We encourage to cite original Alpaca dataset: ``` @misc{alpaca, author = {Rohan Taori and Ishaan Gulrajani and Tianyi Zhang and Yann Dubois and Xuechen Li and Carlos Guestrin and Percy Liang and Tatsunori B. Hashimoto }, title = {Stanford Alpaca: An Instruction-following LLaMA model}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {\url{https://github.com/tatsu-lab/stanford_alpaca}}, } ```
提供机构:
NorGLM
原始信息汇总

数据集卡片

数据集概述

NO-Alpaca-Plus 包含两部分:NO-Alpaca 来自 NB Alpaca Norwegian Bokmål,是一个从英语 Alpaca 指令数据集机器翻译而来的挪威博克马尔语指令数据集。以及一些与挪威文化和特殊表达相关的人工标注挪威指令数据集。

语言

NO-Alpaca-Plus 中的数据为挪威博克马尔语。

数据实例

instruction_culture.numbersinstruction_special_expression.numbers 中的数据实例包括 instructioninputoutput。例如: json { "instruction": "Baser på følgende tekst, hvordan synes personen det er å jobbe i Norge?", "input": "Jeg trives stort med å jobbe i Norge. Mange vil kanskje mene at været er dårlig, nordmenn er kalde og livskvaliteten deretter er dårlig, selv om man tjener bra. Jeg tror imidlertid dette er å male fanden på veggen. Nordmenn er ulike og været varier, noe som for meg gjør livet mer innholdsrikt! I tillegg er det stort fokus på fritid, slik at man ikke møter veggen og blir utbrent av å jobbe for mye.", "output": "Personen trives godt med å jobbe i Norge, spesielt trekker personen fram balansen mellom jobb og fritid. Likevel viser personen forståelse for at alt ikke er perfekt." }

数据分割

NO-Alpaca 基于 80:20 的比例进行微调和评估 NorGLMs。

instruction_culture.csvinstruction_special_expression.csv 中的数据用于案例研究,以测试语言模型对挪威文化的理解能力。instruction_fine_tune.csv 包含所有人工标注的指令样本。

数据集 样本数量
instruction_culture 37
instruction_special_expression 65
instruction_fine_tune 102

许可信息

NO-Alpaca 遵循其原始许可证。

我们的人工标注数据遵循 cc-by-nc-sa-4.0 许可证。

引用信息

我们鼓励引用原始 Alpaca 数据集: bibtex @misc{alpaca, author = {Rohan Taori and Ishaan Gulrajani and Tianyi Zhang and Yann Dubois and Xuechen Li and Carlos Guestrin and Percy Liang and Tatsunori B. Hashimoto }, title = {Stanford Alpaca: An Instruction-following LLaMA model}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/tatsu-lab/stanford_alpaca}}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作