ai-shift/ameba_faq_search

Name: ai-shift/ameba_faq_search
Creator: ai-shift
Published: 2023-12-26 02:21:58
License: 暂无描述

Hugging Face2023-12-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ai-shift/ameba_faq_search

下载链接

链接失效反馈

官方服务：

资源简介：

AMEBA Blog FAQ Search Dataset是通过爬取特定网站获得的FAQ数据集，并经过处理去除了HTML标签和其他格式，排除了内容过长的条目。查询数据是使用大型语言模型（LLM）生成的。数据集包含FAQ数据和查询数据，FAQ数据包括ID、标题和内容，查询数据包括ID、查询文本和难度级别。

提供机构：

ai-shift

原始信息汇总

AMEBA Blog FAQ Search Dataset

数据集概述

任务类别: 问答
语言: 日语
数据规模: 100K<n<1M
许可证: cc-by-nd-4.0

数据来源

数据通过爬取此网站获得。
FAQ数据在爬取后经过处理，去除了HTML标签和其他格式，并排除了内容过长的条目。
查询数据使用大型语言模型（LLM）生成。

数据列描述

FAQ数据 (target_faq.csv)

ID: FAQ的唯一ID
Title: FAQ的标题
Content: FAQ的答案内容

查询数据 (queries_{train/validation/test}.csv)

ID: 正确FAQ的唯一ID
Query: 问题文本
difficulty: 问题的难度级别
- 问题是否与训练集中的正确FAQ相关。
- "easy"表示问题包含在训练数据中，"difficult"表示问题不包含在训练数据中。
- 训练数据均为"easy"。

5,000+

优质数据集

54 个

任务类型

进入经典数据集