five

ai-shift/ameba_faq_search

收藏
Hugging Face2023-12-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ai-shift/ameba_faq_search
下载链接
链接失效反馈
官方服务:
资源简介:
AMEBA Blog FAQ Search Dataset是通过爬取特定网站获得的FAQ数据集,并经过处理去除了HTML标签和其他格式,排除了内容过长的条目。查询数据是使用大型语言模型(LLM)生成的。数据集包含FAQ数据和查询数据,FAQ数据包括ID、标题和内容,查询数据包括ID、查询文本和难度级别。
提供机构:
ai-shift
原始信息汇总

AMEBA Blog FAQ Search Dataset

数据集概述

  • 任务类别: 问答
  • 语言: 日语
  • 数据规模: 100K<n<1M
  • 许可证: cc-by-nd-4.0

数据来源

  • 数据通过爬取此网站获得。
  • FAQ数据在爬取后经过处理,去除了HTML标签和其他格式,并排除了内容过长的条目。
  • 查询数据使用大型语言模型(LLM)生成。

数据列描述

FAQ数据 (target_faq.csv)

  • ID: FAQ的唯一ID
  • Title: FAQ的标题
  • Content: FAQ的答案内容

查询数据 (queries_{train/validation/test}.csv)

  • ID: 正确FAQ的唯一ID
  • Query: 问题文本
  • difficulty: 问题的难度级别
    • 问题是否与训练集中的正确FAQ相关。
    • "easy"表示问题包含在训练数据中,"difficult"表示问题不包含在训练数据中。
    • 训练数据均为"easy"。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作