neurotechnology/lithuanian-qa-v1

Name: neurotechnology/lithuanian-qa-v1
Creator: neurotechnology
Published: 2024-05-24 12:49:17
License: 暂无描述

Hugging Face2024-05-24 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/neurotechnology/lithuanian-qa-v1

下载链接

链接失效反馈

官方服务：

资源简介：

Lithuanian QA V1数据集包含13,848个立陶宛语的问答对，主要关注立陶宛文化、历史和人物。该数据集旨在为立陶宛语的大型语言模型（LLMs）提供微调支持，填补了立陶宛语资源的空白。数据集以JSON格式存储，包含question和answer字段。数据主要来源于立陶宛语维基百科页面，隐私和伦理问题较少，因为数据来自公开信息且不包含个人数据。数据集采用Creative Commons Attribution 4.0 International (CC BY 4.0)许可，允许共享和改编，但需提供适当的署名。数据集将逐步更新以包含新信息，并由Arturas Nakvosas维护。数据集可从Hugging Face数据集库直接访问和下载。

提供机构：

neurotechnology

原始信息汇总

数据集概述

1. 数据集基本信息

数据集名称： Lithuanian QA V1
数据集描述： 该数据集包含立陶宛语的问题-答案对，专注于立陶宛文化、历史和人民相关的话题。它是一个独特的资源，旨在帮助开发专门针对立陶宛语言细微差别的语言模型。
数据集目的： 主要目的是促进大型语言模型（LLMs）对立陶宛语特定问题的微调。它填补了立陶宛语可用资源的重大缺口，支持当地的科技进步和数字人文项目。
未来计划： 我们正在积极开发立陶宛语LLMs，并计划在不久的将来发布。此外，我们将提供扩展数据以增强我们资源的范围和可用性。

2. 数据集组成

数据集大小： 包含13,848个问题-答案对。
数据字段： 数据格式为JSON，包含question和answer字段。
数据示例： json { "question": "Kokie yra seniausi baltų paminėjimai rašytiniuose šaltiniuose?", "answer": "Seniausi rašytiniai baltų paminėjimai yra Tacito veikale „Germanija“, kuriame aprašoma estijų gentis. Tačiau kai kurie tyrinėtojai mano, kad dar senesnės žinios apie baltus siekia 325 m. pr. m. e., kai Pitėjas paminėjo aisčių gentį vardu Ostiaioi." }

3. 数据收集过程

数据收集： 数据集主要由来自维基百科立陶宛网页的问题-答案对生成。

4. 数据隐私与伦理

隐私关注： 由于数据集源自维基百科的公开信息且不含个人数据，隐私关注极小。
伦理考量： 已采取措施确保数据的事实性和无偏见呈现，专注于与立陶宛相关的历史和文化信息。

5. 使用与许可

预期用途： 该数据集主要用于微调基于立陶宛语的大型语言模型（LLMs）。
许可信息： 数据集根据Creative Commons Attribution 4.0 International (CC BY 4.0)许可发布。这意味着您可以自由分享和改编材料，即使是出于商业目的，只要向我们作为数据集作者提供适当的归属。使用数据集时，请包含对我们公司的引用作为作者，并提供数据集本身的链接。重要的是要注意，数据集是按“原样”提供的，没有任何明示或暗示的保证，包括关于信息的准确性、可靠性或完整性的保证。因此，我们公司不承担因使用数据集而产生的任何责任，也不会因直接或间接使用数据集而造成的任何损害或损失承担责任。

6. 数据集的维护与管理

维护计划： 数据集将逐步更新，以包含新信息并准确反映变化。
作者或管理员： Arturas Nakvosas - artena
联系信息： arturas@neurotechnology.com

7. 数据集的可用性

访问方式： 数据集可直接从Hugging Face数据集仓库访问和下载，便于与机器学习工作流程的集成。

5,000+

优质数据集

54 个

任务类型

进入经典数据集