kshitizgajurel/Devanagari-Ecommerce-Dataset
收藏Hugging Face2024-07-08 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/kshitizgajurel/Devanagari-Ecommerce-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
task_categories:
- text-generation
- question-answering
language:
- ne
pretty_name: Devanagari-Nepali-Ecommerce
size_categories:
- 1K<n<10K
---
# Dataset Card for Dataset Name
<!-- Provide a quick summary of the dataset. -->
यो देवनागरी नेपाली भाषाको डेटासेट विशेषगरी च्याटबोट प्रणालीहरू बनाउनको लागि डिजाइन गरिएको हो। यसमा विभिन्न श्रेणीहरूको डेटासेटहरू समावेश गरिएको छ, जसलाई JSON मा ढाँचा बनाईएको छ, जसले नेपाली वार्तालाप एआई अनुप्रयोगहरूको लागि भाषा मोडेलहरूलाई तालिम र फाइन-ट्यून गर्नको लागि व्यापक स्रोत प्रदान गर्दछ।
This dataset card aims to be a base template for new datasets. It has been generated using [this raw template](https://github.com/huggingface/huggingface_hub/blob/main/src/huggingface_hub/templates/datasetcard_template.md?plain=1).
## Dataset Prepared by:
- **Aakash Kumar Thakur**
- **Manish Kathet**
- **Manoj Kumar Baniya**
- **Kshitiz Gajurel**
## Dataset Details
### Dataset Description
<!-- Provide a longer summary of what this dataset is. -->
यो डेटासेट विशेषगरी देवनागरी नेपाली भाषामा च्याटबोट प्रणालीहरूको विकासको लागि तयार गरिएको हो। यसमा ४.९३ हजार पंक्तिहरू छन् र निम्न विभिन्न श्रेणीहरू समावेश छन्: अर्डर रद्द, सम्पर्क, डेलिभरी सेवा, छुट, अभिवादन, स्थान उपलब्धता, अर्डर, भुक्तानी विधि, उत्पादन सुविधाहरू, फिर्ता सोधपुछ, र वारेन्टी ग्यारेन्टी। प्रत्येक प्रविष्टिमा प्रश्न, उत्तर, र तिनीहरूको आशय (intent) समावेश गरिएको छ। डेटासेट JSON ढाँचामा छ र नेपाली वार्तालाप एआई अनुप्रयोगहरूको तालिम र फाइन-ट्यूनिङको लागि उत्कृष्ट स्रोत हो।
### Dataset Sources [optional]
<!-- Provide the basic links for the dataset. -->
यो डेटासेट विभिन्न स्रोतहरूबाट संकलन गरिएको हो, जसमा ग्राहक समर्थन प्रणाली, अनलाइन खुद्रा पसलहरू, ग्राहक सेवा FAQ (Frequently Asked Questions) खण्डहरू, र नेपाली भाषामा प्रयोग भएका सामान्य प्रश्नहरू समावेश छन्। थप रूपमा, केही डेटा विशेषगरी नेपाली ग्राहकहरूको आवश्यकतालाई ध्यानमा राख्दै सिर्जना गरिएको हो। यी सबै स्रोतहरू मिलेर यो डेटासेट तयार गरिएको हो, जसले नेपाली भाषामा च्याटबोट प्रणालीहरूलाई अधिक प्रभावकारी र यथार्थपूर्ण बनाउँछ।
## Uses
<!-- Address questions around how the dataset is intended to be used. -->
यो डेटासेट विभिन्न उपयोगहरूको लागि उपयुक्त छ:
- **च्याटबोट प्रशिक्षण:** नेपाली भाषामा कुशल च्याटबोट बनाउन यो डेटासेट प्रयोग गर्न सकिन्छ, जसले ग्राहकहरूको प्रश्नहरूको सही उत्तर दिन सक्छ।
- **भाषा मोडेल फाइन-ट्यूनिङ:** पूर्वनिर्मित भाषा मोडेलहरूलाई नेपाली भाषामा फाइन-ट्यून गर्नका लागि यो डेटासेट उपयोगी छ।
- **ग्राहक सेवा सुधार:** नेपाली भाषामा ग्राहक सेवा प्रदान गर्ने संस्थाहरूले यो डेटासेट प्रयोग गरेर आफ्ना सेवा सुधार गर्न सक्छन्।
- **शैक्षिक अनुसन्धान:** भाषा प्रविधि र एआई अनुसन्धानकर्ताहरूले यो डेटासेटको प्रयोग गरेर नेपाली भाषामा विभिन्न अध्ययन र अनुसन्धान गर्न सक्छन्।
- **स्वत: उत्तर प्रणाली विकास:** विभिन्न एप्लिकेशनहरूमा स्वत: उत्तर प्रणाली विकास गर्न यो डेटासेट उपयोगी छ, जसले नेपाली भाषामा प्रयोगकर्ताहरूसँग कुराकानी गर्न सक्षम बनाउँछ।
### Direct Use
<!-- This section describes suitable use cases for the dataset. -->
यो डेटासेटको प्रत्यक्ष प्रयोग निम्नानुसार गर्न सकिन्छ:
- **च्याटबोट विकास:** नेपाली भाषामा प्रश्न र उत्तरको तालिम दिइ च्याटबोट प्रणालीहरू बनाउन प्रयोग गर्न सकिन्छ।
- **FAQ प्रणाली:** ग्राहकहरूको सामान्य प्रश्नहरूको स्वत: उत्तर प्रणाली विकास गर्न प्रयोग गर्न सकिन्छ।
- **ग्राहक सेवा समर्थन:** ग्राहक सेवा प्रतिनिधिहरूलाई सहायक उपकरणको रूपमा प्रयोग गर्न सकिन्छ, जसले प्रश्नहरूको छिटो र सही उत्तर दिन सक्छ।
- **नेपाली भाषाको अनुसन्धान:** भाषा प्रविधिमा नेपाली भाषाको लागि अनुसंधान र विकास कार्यहरूमा प्रयोग गर्न सकिन्छ।
- **एआई मोडेल फाइन-ट्यूनिङ:** नेपाली भाषाको लागि पूर्वनिर्मित एआई मोडेलहरूलाई अनुकूलित गर्न यो डेटासेट प्रयोग गर्न सकिन्छ।
### Out-of-Scope Use
<!-- This section addresses misuse, malicious use, and uses that the dataset will not work well for. -->
यो डेटासेटका निम्न प्रयोगहरू उचित छैनन्:
- **वैयक्तिक डाटा विश्लेषण:** व्यक्तिगत जानकारी र गोपनीय डाटा विश्लेषणका लागि यो डेटासेट प्रयोग गर्नु उपयुक्त छैन।
- **नकारात्मक प्रचार:** गलत जानकारी फैलाउन वा नकारात्मक प्रचार गर्न यो डेटासेट प्रयोग गर्नु हुँदैन।
- **अनुचित सामग्री निर्माण:** यो डेटासेटको प्रयोग गरेर अनुचित, अपमानजनक, वा हानिकारक सामग्री निर्माण गर्नु अनुचित हो।
- **कानूनी परामर्श:** कानूनी परामर्श र निर्णयहरूको लागि यो डेटासेट प्रयोग गर्न मिल्दैन।
- **भाषा अनुवाद प्रणाली:** यो डेटासेट विशिष्ट रूपमा च्याटबोट र ग्राहक सेवा सम्बन्धी प्रश्नहरूको लागि डिजाइन गरिएको हो, त्यसैले भाषाको व्यापक अनुवाद प्रणाली विकासको लागि यसको प्रयोग गर्न मिल्दैन।
## Dataset Structure
<!-- This section provides a description of the dataset fields, and additional information about the dataset structure such as criteria used to create the splits, relationships between data points, etc. -->
यो डेटासेटको संरचना निम्नानुसार छ:
- **प्रश्न (question):** प्रयोगकर्ताले सोधेको प्रश्न।
- **उत्तर (answer):** च्याटबोटले दिनुपर्ने उत्तर।
- **आशय (intent):** प्रश्नको उद्देश्य वा श्रेणी।
प्रत्येक प्रविष्टि JSON ढाँचामा प्रस्तुत गरिएको छ। उदाहरण स्वरूप:
```json
[
{
"question": "फिर्ता गर्न मिल्ने हो?",
"answer": "हो, यो फिर्ता गर्न मिल्ने हो।",
"intent": "ReturnInquiry"
},
{
"question": "के यो सामान फिर्ता गर्न मिल्ने हो?",
"answer": "हो, यो सामान फिर्ता गर्न मिल्ने हो।",
"intent": "ReturnInquiry"
},
{
"question": "के यो सामानमा वारेन्टी छ?",
"answer": "हो, यो सामानमा १ वर्षको वारेन्टी छ।",
"intent": "WarrantyGuarantee"
}
]
This dataset is specifically designed for the development of Devanagari Nepali language chatbot systems. It contains 49.3 thousand rows and includes various categories such as order cancellation, contact, delivery service, discount, greeting, location availability, order, payment method, product features, return inquiry, and warranty guarantee. Each entry includes a question, answer, and intent (intent). The dataset is organized in JSON format and serves as an excellent source for training and fine-tuning conversational AI applications in Nepali.
提供机构:
kshitizgajurel
原始信息汇总
数据集概述
数据集描述
该数据集专为开发基于梵文尼泊尔语的聊天机器人系统而设计。包含约4.93万条记录,涵盖以下类别:订单取消、联系、配送服务、折扣、问候、地点可用性、订单、支付方式、产品功能、退货查询和保修保证。每条记录包含问题、答案和意图。数据集以JSON格式组织,适用于尼泊尔语对话AI应用的训练和微调。
数据集来源
数据集从多个来源收集,包括客户支持系统、在线零售商店、客户服务常见问题解答部分以及尼泊尔语中使用的常见问题。部分数据专门为满足尼泊尔语客户的需求而创建。这些来源共同构成了该数据集,使其能够更有效地支持尼泊尔语聊天机器人系统。
数据集用途
直接用途
- 聊天机器人开发:用于训练尼泊尔语聊天机器人系统,能够正确回答客户问题。
- 常见问题解答系统:用于开发自动回答常见问题的系统。
- 客户服务支持:作为客户服务代表的辅助工具,快速准确地回答问题。
- 尼泊尔语研究:用于语言技术领域的尼泊尔语研究和开发。
- AI模型微调:用于微调预构建的AI模型,以适应尼泊尔语。
超出范围的用途
- 个人数据分析:不适合用于个人隐私数据分析。
- 负面宣传:不适合用于传播错误信息或进行负面宣传。
- 不当内容生成:不适合用于生成不当、侮辱性或有害内容。
- 法律咨询:不适合用于法律咨询和决策。
- 语言翻译系统:不适合用于开发广泛的语言翻译系统。
数据集结构
数据集包含以下字段:
- 问题 (question):用户提出的问题。
- 答案 (answer):聊天机器人应提供的答案。
- 意图 (intent):问题的目的或类别。
每条记录以JSON格式呈现。示例格式如下:
json [ { "question": "可以退货吗?", "answer": "是的,可以退货。", "intent": "ReturnInquiry" }, { "question": "这个商品可以退货吗?", "answer": "是的,这个商品可以退货。", "intent": "ReturnInquiry" }, { "question": "这个商品有保修吗?", "answer": "是的,这个商品有1年的保修。", "intent": "WarrantyGuarantee" } ]
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



