ai-shift/ameba_faq_search
收藏Hugging Face2023-12-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ai-shift/ameba_faq_search
下载链接
链接失效反馈官方服务:
资源简介:
AMEBA Blog FAQ Search Dataset是通过爬取特定网站获得的FAQ数据集,并经过处理去除了HTML标签和其他格式,排除了内容过长的条目。查询数据是使用大型语言模型(LLM)生成的。数据集包含FAQ数据和查询数据,FAQ数据包括ID、标题和内容,查询数据包括ID、查询文本和难度级别。
提供机构:
ai-shift
原始信息汇总
AMEBA Blog FAQ Search Dataset
数据集概述
- 任务类别: 问答
- 语言: 日语
- 数据规模: 100K<n<1M
- 许可证: cc-by-nd-4.0
数据来源
- 数据通过爬取此网站获得。
- FAQ数据在爬取后经过处理,去除了HTML标签和其他格式,并排除了内容过长的条目。
- 查询数据使用大型语言模型(LLM)生成。
数据列描述
FAQ数据 (target_faq.csv)
- ID: FAQ的唯一ID
- Title: FAQ的标题
- Content: FAQ的答案内容
查询数据 (queries_{train/validation/test}.csv)
- ID: 正确FAQ的唯一ID
- Query: 问题文本
- difficulty: 问题的难度级别
- 问题是否与训练集中的正确FAQ相关。
- "easy"表示问题包含在训练数据中,"difficult"表示问题不包含在训练数据中。
- 训练数据均为"easy"。



