five

rasdani/cohere-wikipedia-2023-11-en-queries

收藏
Hugging Face2024-05-15 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/rasdani/cohere-wikipedia-2023-11-en-queries
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为cohere-wikipedia-2023-11-en-queries,包含1500个示例,主要用于存储与Wikipedia相关的查询和回答。数据集的特征包括_id、url、title、text、score、views、model_name和query。数据集是通过distilabel工具生成的,并提供了一个pipeline.yaml文件用于复现生成过程。

该数据集名为cohere-wikipedia-2023-11-en-queries,包含1500个示例,主要用于存储与Wikipedia相关的查询和回答。数据集的特征包括_id、url、title、text、score、views、model_name和query。数据集是通过distilabel工具生成的,并提供了一个pipeline.yaml文件用于复现生成过程。
提供机构:
rasdani
原始信息汇总

数据集卡片 for cohere-wikipedia-2023-11-en-queries

数据集概述

该数据集包含一个 pipeline.yaml 文件,可以使用 distilabel CLI 重现生成该数据集的管道:

console distilabel pipeline run --config "https://huggingface.co/datasets/rasdani/cohere-wikipedia-2023-11-en-queries/raw/main/pipeline.yaml"

或者探索配置:

console distilabel pipeline info --config "https://huggingface.co/datasets/rasdani/cohere-wikipedia-2023-11-en-queries/raw/main/pipeline.yaml"

数据集结构

每个配置的示例具有以下结构:

<details><summary> 配置: default </summary><hr>

json { "_id": "20231101.en_399353_52", "model_name": "gpt-4o", "query": "When did the show "Bewitched" start airing on WGN America?", "score": 1.0, "text": "In September 2008, the show began to air on WGN America, and in October 2012, it began to air on Logo, limited to the middle seasons.", "title": "Bewitched", "url": "https://en.wikipedia.org/wiki/Bewitched", "views": 22918.295425348486 }

该子集可以加载为:

python from datasets import load_dataset

ds = load_dataset("rasdani/cohere-wikipedia-2023-11-en-queries", "default")

或者简单地加载,因为只有一个配置并且命名为 default

python from datasets import load_dataset

ds = load_dataset("rasdani/cohere-wikipedia-2023-11-en-queries")

</details>

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作