ask_library_cs
收藏Hugging Face2024-10-28 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/ctu-aic/ask_library_cs
下载链接
链接失效反馈官方服务:
资源简介:
Ask the Library数据集包含从网页https://www.ptejteseknihovny.cz/抓取的问题和答案。问题涵盖了广泛的主题,如历史、语言、生物等。数据集由AIC FEE CTU策划,主要语言为捷克语,使用CC-BY-NC 3.0许可证。数据集可用于指令调优、问答和其他NLP任务。数据集包含一个训练集,包含以下字段:标题、问题、答案、图书馆所在地的Okres(NUTS4)、图书馆名称、问题类别、使用的来源、提问日期、问题URL、行ID和检测到的语言。数据集的创建动机是缺乏可用的捷克语指令调优数据集。数据来源是捷克图书馆的员工和用户。
The Ask the Library dataset consists of questions and answers scraped from the webpage https://www.ptejteseknihovny.cz/. The questions cover a wide range of topics including history, linguistics, biology and other fields. Curated by AIC FEE CTU, the dataset is primarily in Czech and released under the CC-BY-NC 3.0 license. It can be used for instruction tuning, question answering and other natural language processing (NLP) tasks. The dataset includes a training set with the following fields: title, question, answer, Okres (NUTS4) of the library's location, library name, question category, source used, question submission date, question URL, row ID, and detected language. The motivation for creating this dataset is the lack of available Czech-language instruction tuning datasets. The data is sourced from staff and users of Czech libraries.
提供机构:
AI Center FEE CTU
创建时间:
2024-10-22
搜集汇总
数据集介绍

构建方式
Ask the Library数据集通过从https://www.ptejteseknihovny.cz/网页上抓取问题和答案构建而成。数据收集过程中,使用了ftfy Python库对文本字段进行清理,确保数据的准确性和一致性。该数据集的构建旨在填补捷克语指令调优数据集的空白,涵盖了历史、语言、生物学等多个广泛的主题。
特点
Ask the Library数据集包含丰富的问题和答案对,涵盖了多个主题领域。每个数据点包含问题的标题、具体问题、图书馆提供的答案、图书馆所在地区、图书馆名称、问题类别、使用的资源、提问日期、URL、唯一标识符以及检测到的语言。数据集的语言主要为捷克语,但也包含英语和斯洛伐克语,适用于文本生成、问答系统等多种自然语言处理任务。
使用方法
Ask the Library数据集可用于指令调优过程,特别适合用于问答系统和其他自然语言处理任务。研究人员和开发者可以通过该数据集训练和评估模型,提升模型在捷克语环境下的表现。使用该数据集时,用户应注意其潜在的偏差和局限性,确保在应用过程中进行适当的调整和验证。
背景与挑战
背景概述
Ask the Library数据集由AIC FEE CTU机构于近年创建,旨在解决捷克语指令调优数据稀缺的问题。该数据集通过爬取捷克图书馆问答网站https://www.ptejteseknihovny.cz/上的问题与答案构建而成,涵盖了历史、语言、生物学等多个领域的广泛主题。其核心研究问题在于为捷克语的自然语言处理任务提供丰富的问答数据资源,特别是在指令调优和问答系统开发方面。该数据集的发布为捷克语NLP研究提供了重要的数据支持,推动了相关领域的技术进步。
当前挑战
Ask the Library数据集在构建与应用过程中面临多重挑战。首先,数据来源局限于知晓并使用特定图书馆服务的用户群体,可能导致样本多样性不足,影响模型的泛化能力。其次,数据清洗与预处理过程中,尽管使用了ftfy库进行文本清理,但仍可能存在语言检测误差或异常值,需人工干预修正。此外,数据集的语言主要为捷克语,限制了其在多语言环境下的应用。最后,数据集的构建依赖于特定网站的内容更新与维护,未来数据的持续获取与更新可能面临不确定性。
常用场景
经典使用场景
在自然语言处理领域,Ask the Library数据集被广泛应用于指令调优和问答系统的开发。该数据集包含了从捷克图书馆网页上抓取的问题和答案,涵盖了历史、语言、生物学等多个主题,为研究人员提供了一个丰富的多语言文本资源。
解决学术问题
Ask the Library数据集解决了捷克语指令调优数据集稀缺的问题,为捷克语自然语言处理研究提供了宝贵的数据支持。通过该数据集,研究人员能够更好地训练和评估问答系统、文本生成模型等,推动了捷克语NLP技术的发展。
衍生相关工作
基于Ask the Library数据集,研究人员开发了多种捷克语自然语言处理模型,如问答系统和文本生成模型。这些模型在捷克语信息检索、智能客服等领域得到了广泛应用,进一步推动了捷克语NLP技术的研究和应用。
以上内容由遇见数据集搜集并总结生成



