five

MongoDB/cosmopedia-wikihow-chunked

收藏
Hugging Face2024-02-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/MongoDB/cosmopedia-wikihow-chunked
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是Hugging Face整理的Cosmopedia数据集的子集的分块版本,特别使用了Wikihow文章的子集,并将每篇文章分割成不超过2个段落的块。每个记录代表一个较大的文章块,包含`doc_id`、`chunk_id`、`text_token_length`和`text`字段。该数据集可用于评估和测试嵌入模型、RAG、语义搜索的检索质量以及问答性能。

该数据集是Hugging Face整理的Cosmopedia数据集的子集的分块版本,特别使用了Wikihow文章的子集,并将每篇文章分割成不超过2个段落的块。每个记录代表一个较大的文章块,包含`doc_id`、`chunk_id`、`text_token_length`和`text`字段。该数据集可用于评估和测试嵌入模型、RAG、语义搜索的检索质量以及问答性能。
提供机构:
MongoDB
原始信息汇总

数据集概述

该数据集是从 Cosmopedia 数据集中精选的一部分 Wikihow 文章的片段版本。每个文章被分割成不超过两个段落的片段。

数据集结构

每个记录代表一个较大文章的片段,包含以下字段:

  • doc_id: 父文章的唯一标识符
  • chunk_id: 每个片段的唯一标识符
  • text_token_length: 片段文本中的标记数量
  • text: 片段的原始文本

使用场景

该数据集可用于评估和测试:

  • 嵌入模型的性能和 RAG
  • 语义搜索的检索质量
  • 问答性能

示例文档

MongoDB 中的文档应如下所示:

json { "_id": { "$oid": "65d93cb0653af71f15a888ae" }, "doc_id": { "$numberInt": "0" }, "chunk_id": { "$numberInt": "1" }, "text_token_length": { "$numberInt": "111" }, "text": "**Step 1: Choose a Location ** Select a well-draining spot in your backyard, away from your house or other structures, as compost piles can produce odors. Ideally, locate the pile in partial shade or a location with morning sun only. This allows the pile to retain moisture while avoiding overheating during peak sunlight hours.

Key tip: Aim for a minimum area of 3 x 3 feet (0.9m x 0.9m) for proper decomposition; smaller piles may not generate enough heat for optimal breakdown of materials." }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作