matsuxr/JaGovFaqs-22k
收藏Hugging Face2024-02-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/matsuxr/JaGovFaqs-22k
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从日本政府官方网站上手动提取的常见问题,整理成指令数据集。数据集采用CC-BY-4.0许可证,版权归属于各政府机构。数据集的特点包括问答形式、经过国家公务员的检查以确保准确性、论旨明确、日语质量高,并附有源URL。预期用途包括大规模语言模型的指令调优和RAG实现的测试数据库。免责声明指出数据集按现状提供,制作者不承担任何责任,并可能存在手工整理时的错误。当前存在的问题包括文本转换可能导致的语义不清、政府立场可能影响数据的中立性等。
This dataset is an instruction dataset manually curated from frequently asked questions (FAQs) on the official websites of the Japanese government. It is licensed under CC-BY-4.0, with copyright held by the respective government agencies. Key characteristics of the dataset include: question-and-answer (Q&A) format, verification by national public officials to guarantee accuracy, clear thematic focus, high-quality Japanese language, and accompanying source URLs. Its intended use cases include instruction tuning for large language models (LLMs) and serving as a test database for retrieval-augmented generation (RAG) implementations. The disclaimer states that the dataset is provided "as-is", the creators disclaim all liability, and errors may arise during manual curation. Current limitations include potential semantic ambiguity caused by text conversion, possible compromise of data neutrality due to government stances, and other similar issues.
提供机构:
matsuxr
原始信息汇总
数据集概述
基本信息
- 许可证: CC-BY-4.0
- 任务类别: 问答
- 语言: 日语
- 标签: 法律
- 数据集大小: 10K<n<100K
数据集描述
- 该数据集由日本官方网站上的常见问题手动提取,用于指导性数据集。
- 数据集的版权属于各官方机构,许可证为CC-BY-4.0(国际)。
数据集特征
- 采用问答形式。
- 经过国家公务员审核,几乎无错别字。
- 论点明确,被认为是高质量的日语数据集。
- 附带源URL,可用作链接集。
预期用途
- 大规模语言模型的Instruction Tuning
- RAG实现的测试数据库
免责声明
- 数据集按现状提供,数据集制作者不承担任何使用责任。
- 由于是手动整理数据,可能存在因操作失误导致的数据错误。
当前存在的挑战
- 由于机械地将官方文档转换为纯文本,可能导致理解困难。
- 官方文档可能包含强烈的主张,可能不适合不希望强烈反映特定立场或思想的情况。



