NorGLM/NO-Alpaca-Plus
收藏数据集卡片
数据集概述
NO-Alpaca-Plus 包含两部分:NO-Alpaca 来自 NB Alpaca Norwegian Bokmål,是一个从英语 Alpaca 指令数据集机器翻译而来的挪威博克马尔语指令数据集。以及一些与挪威文化和特殊表达相关的人工标注挪威指令数据集。
语言
NO-Alpaca-Plus 中的数据为挪威博克马尔语。
数据实例
instruction_culture.numbers 和 instruction_special_expression.numbers 中的数据实例包括 instruction、input 和 output。例如: json { "instruction": "Baser på følgende tekst, hvordan synes personen det er å jobbe i Norge?", "input": "Jeg trives stort med å jobbe i Norge. Mange vil kanskje mene at været er dårlig, nordmenn er kalde og livskvaliteten deretter er dårlig, selv om man tjener bra. Jeg tror imidlertid dette er å male fanden på veggen. Nordmenn er ulike og været varier, noe som for meg gjør livet mer innholdsrikt! I tillegg er det stort fokus på fritid, slik at man ikke møter veggen og blir utbrent av å jobbe for mye.", "output": "Personen trives godt med å jobbe i Norge, spesielt trekker personen fram balansen mellom jobb og fritid. Likevel viser personen forståelse for at alt ikke er perfekt." }
数据分割
NO-Alpaca 基于 80:20 的比例进行微调和评估 NorGLMs。
instruction_culture.csv 和 instruction_special_expression.csv 中的数据用于案例研究,以测试语言模型对挪威文化的理解能力。instruction_fine_tune.csv 包含所有人工标注的指令样本。
| 数据集 | 样本数量 |
|---|---|
| instruction_culture | 37 |
| instruction_special_expression | 65 |
| instruction_fine_tune | 102 |
许可信息
NO-Alpaca 遵循其原始许可证。
我们的人工标注数据遵循 cc-by-nc-sa-4.0 许可证。
引用信息
我们鼓励引用原始 Alpaca 数据集: bibtex @misc{alpaca, author = {Rohan Taori and Ishaan Gulrajani and Tianyi Zhang and Yann Dubois and Xuechen Li and Carlos Guestrin and Percy Liang and Tatsunori B. Hashimoto }, title = {Stanford Alpaca: An Instruction-following LLaMA model}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/tatsu-lab/stanford_alpaca}}, }



