five

rasdani/cohere-wikipedia-2023-11-bg-queries

收藏
Hugging Face2024-05-15 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/rasdani/cohere-wikipedia-2023-11-bg-queries
下载链接
链接失效反馈
官方服务:
资源简介:
--- size_categories: n<1K dataset_info: features: - name: _id dtype: string - name: url dtype: string - name: title dtype: string - name: text dtype: string - name: score dtype: float64 - name: views dtype: float64 - name: model_name dtype: string - name: query dtype: string splits: - name: train num_bytes: 1405650 num_examples: 1500 download_size: 704444 dataset_size: 1405650 configs: - config_name: default data_files: - split: train path: data/train-* tags: - synthetic - distilabel - rlaif --- <p align="left"> <a href="https://github.com/argilla-io/distilabel"> <img src="https://raw.githubusercontent.com/argilla-io/distilabel/main/docs/assets/distilabel-badge-light.png" alt="Built with Distilabel" width="200" height="32"/> </a> </p> # Dataset Card for cohere-wikipedia-2023-11-bg-queries This dataset has been created with [distilabel](https://distilabel.argilla.io/). ## Dataset Summary This dataset contains a `pipeline.yaml` which can be used to reproduce the pipeline that generated it in distilabel using the `distilabel` CLI: ```console distilabel pipeline run --config "https://huggingface.co/datasets/rasdani/cohere-wikipedia-2023-11-bg-queries/raw/main/pipeline.yaml" ``` or explore the configuration: ```console distilabel pipeline info --config "https://huggingface.co/datasets/rasdani/cohere-wikipedia-2023-11-bg-queries/raw/main/pipeline.yaml" ``` ## Dataset structure The examples have the following structure per configuration: <details><summary> Configuration: default </summary><hr> ```json { "_id": "20231101.bg_106225_9", "model_name": "gpt-4o", "query": "\u041a\u0430\u043a\u0432\u0438 \u0441\u0430 \u043f\u0440\u0438\u0447\u0438\u043d\u0438\u0442\u0435 \u0437\u0430 \u0432\u044a\u0437\u043d\u0438\u043a\u0432\u0430\u043d\u0435\u0442\u043e \u043d\u0430 \u043a\u0443\u043b\u0442\u0430 \u043a\u044a\u043c \u043c\u0435\u043b\u0430\u043d\u0445\u043e\u043b\u0438\u044f\u0442\u0430 \u0432 \u043d\u0430\u0447\u0430\u043b\u043e\u0442\u043e \u043d\u0430 XVII \u0432\u0435\u043a \u0432\u044a\u0432 \u0412\u0435\u043b\u0438\u043a\u043e\u0431\u0440\u0438\u0442\u0430\u043d\u0438\u044f?", "score": 1.0, "text": "\u0412 \u043d\u0430\u0447\u0430\u043b\u043e\u0442\u043e \u043d\u0430 XVII \u0432\u0435\u043a \u0432\u044a\u0432 \u0412\u0435\u043b\u0438\u043a\u043e\u0431\u0440\u0438\u0442\u0430\u043d\u0438\u044f \u0432\u044a\u0437\u043d\u0438\u043a\u0432\u0430 \u043a\u0443\u043b\u0442 \u043a\u044a\u043c \u043c\u0435\u043b\u0430\u043d\u0445\u043e\u043b\u0438\u044f\u0442\u0430. \u041f\u0440\u0435\u0434\u043f\u043e\u043b\u0430\u0433\u0430 \u0441\u0435, \u0447\u0435 \u043f\u0440\u0438\u0447\u0438\u043d\u0438\u0442\u0435 \u0441\u0430 \u0440\u0435\u043b\u0438\u0433\u0438\u043e\u0437\u043d\u0430\u0442\u0430 \u043d\u0435\u0441\u0438\u0433\u0443\u0440\u043d\u043e\u0441\u0442, \u0441\u043b\u0435\u0434\u0441\u0442\u0432\u0438\u0435 \u043e\u0442 \u0430\u043d\u0433\u043b\u0438\u0439\u0441\u043a\u0430\u0442\u0430 \u0420\u0435\u0444\u043e\u0440\u043c\u0430 \u0438 \u0434\u044a\u043b\u0431\u043e\u043a\u0438\u044f \u0438\u043d\u0442\u0435\u0440\u0435\u0441 \u043a\u044a\u043c \u0433\u0440\u0435\u0445\u0430, \u0433\u0440\u0435\u0445\u043e\u043f\u0430\u0434\u0435\u043d\u0438\u0435\u0442\u043e \u0438 \u0441\u043f\u0430\u0441\u0435\u043d\u0438\u0435\u0442\u043e. \u0412 \u043c\u0443\u0437\u0438\u043a\u0430\u0442\u0430 \u043d\u0435\u0433\u043e\u0432 \u0438\u0437\u0440\u0430\u0437\u0438\u0442\u0435\u043b \u0435 \u0414\u0436\u043e\u043d \u0414\u043e\u0443\u043b\u0430\u043d\u0434, \u043a\u043e\u0439\u0442\u043e \u043a\u0430\u0437\u0432\u0430 \u0437\u0430 \u0441\u0435\u0431\u0435 \u0441\u0438 Semper Dowland, semper dolens (\u201e\u0412\u0438\u043d\u0430\u0433\u0438 \u0414\u043e\u0443\u043b\u0430\u043d\u0434, \u0432\u0438\u043d\u0430\u0433\u0438 \u043f\u0435\u0447\u0430\u043b\u0435\u043d\u201c). \u0423\u0438\u043b\u044f\u043c \u0428\u0435\u043a\u0441\u043f\u0438\u0440 \u0441\u044a\u0437\u0434\u0430\u0432\u0430 \u043c\u0435\u043b\u0430\u043d\u0445\u043e\u043b\u0438\u0447\u043d\u0438\u044f, \u043d\u0435\u0441\u0433\u043e\u0432\u043e\u0440\u0447\u0438\u0432 \u0438 \u043e\u043f\u0430\u0441\u0435\u043d \u0437\u0430 \u0441\u0432\u043e\u0435\u0442\u043e \u043e\u0431\u043a\u0440\u044a\u0436\u0435\u043d\u0438\u0435 \u0433\u0435\u0440\u043e\u0439 \u043f\u0440\u0438\u043d\u0446 \u0425\u0430\u043c\u043b\u0435\u0442. \u041e\u0449\u0435 \u0435\u0434\u0438\u043d \u0438\u0437\u0440\u0430\u0437 \u043d\u0430 \u0442\u0430\u0437\u0438 \u043e\u0431\u0449\u0435\u0441\u0442\u0432\u0435\u043d\u0430 \u043d\u0430\u0433\u043b\u0430\u0441\u0430 \u0441\u0430 \u043e\u0431\u0441\u0435\u0431\u0435\u043d\u0438\u0442\u0435 \u043e\u0442 \u043c\u0438\u0441\u044a\u043b\u0442\u0430 \u0437\u0430 \u0441\u043c\u044a\u0440\u0442\u0442\u0430 \u043f\u0440\u043e\u0438\u0437\u0432\u0435\u0434\u0435\u043d\u0438\u044f \u043d\u0430 \u0414\u0436\u043e\u043d \u0414\u044a\u043d. \u0422\u043e\u043c\u0430\u0441 \u0411\u0440\u0430\u0443\u043d \u0438 \u0414\u0436\u0435\u0440\u0435\u043c\u0438 \u0422\u0435\u0439\u043b\u044a\u0440 \u043f\u043e\u0441\u0432\u0435\u0449\u0430\u0432\u0430\u0442 \u043c\u043d\u043e\u0433\u043e\u0431\u0440\u043e\u0439\u043d\u0438 \u0441\u0442\u0440\u0430\u043d\u0438\u0446\u0438 \u043d\u0430 \u043c\u0435\u0442\u0430\u0444\u0438\u0437\u0438\u0447\u043d\u0438 \u0440\u0430\u0437\u0441\u044a\u0436\u0434\u0435\u043d\u0438\u044f \u0437\u0430 \u0441\u043c\u044a\u0440\u0442\u0442\u0430. \u0412 \u0442\u0430\u0437\u0438 \u0435\u043f\u043e\u0445\u0430 \u043d\u0430\u0439-\u0434\u044a\u043b\u0431\u043e\u043a\u0430\u0442\u0430 \u0438 \u043d\u0430\u0439-\u043f\u044a\u043b\u043d\u0430 \u043a\u0430\u0440\u0442\u0438\u043d\u0430 \u0437\u0430 \u0442\u043e\u0437\u0438 \u0444\u0435\u043d\u043e\u043c\u0435\u043d \u043e\u0442 \u043c\u0435\u0434\u0438\u0446\u0438\u043d\u0441\u043a\u0430 \u0438 \u043b\u0438\u0442\u0435\u0440\u0430\u0442\u0443\u0440\u043d\u0430 \u0433\u043b\u0435\u0434\u043d\u0430 \u0442\u043e\u0447\u043a\u0430 \u043d\u0438 \u0434\u0430\u0432\u0430 \u0420\u043e\u0431\u0435\u0440\u0442 \u0411\u044a\u0440\u0442\u044a\u043d. \u041f\u0440\u0435\u0437 1621 \u0442\u043e\u0439 \u043f\u0443\u0431\u043b\u0438\u043a\u0443\u0432\u0430 \u201e\u0410\u043d\u0430\u0442\u043e\u043c\u0438\u044f \u043d\u0430 \u043c\u0435\u043b\u0430\u043d\u0445\u043e\u043b\u0438\u044f\u0442\u0430\u201c, \u043a\u043d\u0438\u0433\u0430, \u0432 \u043a\u043e\u044f\u0442\u043e \u0430\u043d\u0430\u043b\u0438\u0437\u0438\u0440\u0430 \u043f\u0440\u0438\u0447\u0438\u043d\u0438\u0442\u0435 \u0438 \u043f\u0440\u043e\u044f\u0432\u043b\u0435\u043d\u0438\u044f\u0442\u0430 \u043d\u0430 \u043c\u0435\u043b\u0430\u043d\u0445\u043e\u043b\u0438\u044f\u0442\u0430 \u0438 \u0442\u044a\u0440\u0441\u0438 \u0441\u0440\u0435\u0434\u0441\u0442\u0432\u0430 \u0437\u0430 \u043b\u0435\u0447\u0435\u043d\u0438\u0435\u0442\u043e \u045d. \u0422\u043e\u0439 \u043e\u0442\u0431\u0435\u043b\u044f\u0437\u0432\u0430 \u0438 \u0441\u044a\u0449\u0435\u0441\u0442\u0432\u0443\u0432\u0430\u043d\u0435\u0442\u043e \u043d\u0430 \u0440\u0435\u043b\u0438\u0433\u0438\u043e\u0437\u043d\u0430\u0442\u0430 \u043c\u0435\u043b\u0430\u043d\u0445\u043e\u043b\u0438\u044f. \u0422\u043e\u0432\u0430 \u0441\u044a\u0447\u0438\u043d\u0435\u043d\u0438\u0435 \u0435 \u0432\u0430\u0436\u0435\u043d \u0441\u0431\u043e\u0440 \u043e\u0442 \u0441\u044a\u0449\u0435\u0441\u0442\u0432\u0443\u0432\u0430\u0449\u0438\u0442\u0435 \u0434\u043e\u0442\u043e\u0433\u0430\u0432\u0430 \u0442\u0435\u043e\u0440\u0438\u0438 \u0438 \u043f\u043e\u043a\u0430\u0437\u0432\u0430, \u0447\u0435 \u043c\u0435\u043b\u0430\u043d\u0445\u043e\u043b\u0438\u044f\u0442\u0430 \u0435 \u0431\u0438\u043b\u0430 \u0438\u0437\u0432\u0435\u0441\u0442\u043d\u0430. \u0421\u043f\u043e\u0440\u0435\u0434 \u0411\u044a\u0440\u0442\u044a\u043d \u0442\u044f \u0435 \u0441\u0432\u044a\u0440\u0437\u0430\u043d\u0430 \u0441\u044a\u0441 \u0437\u0430\u0433\u0443\u0431\u0430\u0442\u0430 \u043d\u0430 \u0431\u043b\u0438\u0437\u044a\u043a \u0447\u043e\u0432\u0435\u043a \u0438 \u0441 \u0442\u0440\u0430\u0443\u0440\u0430. \u0421\u0430\u043c\u0438\u044f\u0442 \u0411\u044a\u0440\u0442\u044a\u043d \u0435 \u0441\u0447\u0438\u0442\u0430\u043b \u0441\u0435\u0431\u0435 \u0441\u0438 \u0437\u0430 \u043c\u0435\u043b\u0430\u043d\u0445\u043e\u043b\u0438\u043a.", "title": "\u041c\u0435\u043b\u0430\u043d\u0445\u043e\u043b\u0438\u044f", "url": "https://bg.wikipedia.org/wiki/%D0%9C%D0%B5%D0%BB%D0%B0%D0%BD%D1%85%D0%BE%D0%BB%D0%B8%D1%8F", "views": 3432.502315320987 } ``` This subset can be loaded as: ```python from datasets import load_dataset ds = load_dataset("rasdani/cohere-wikipedia-2023-11-bg-queries", "default") ``` Or simply as it follows, since there's only one configuration and is named `default`: ```python from datasets import load_dataset ds = load_dataset("rasdani/cohere-wikipedia-2023-11-bg-queries") ``` </details>
提供机构:
rasdani
原始信息汇总

数据集概述

基本信息

  • 数据集大小: 小于1KB
  • 创建工具: Distilabel

数据集结构

特征

数据集包含以下特征:

  • _id: 字符串类型
  • url: 字符串类型
  • title: 字符串类型
  • text: 字符串类型
  • score: 浮点数类型
  • views: 浮点数类型
  • model_name: 字符串类型
  • query: 字符串类型

数据分割

  • 训练集:
    • 数据量: 1500个样本
    • 大小: 1405650字节

下载与数据集大小

  • 下载大小: 704444字节
  • 数据集大小: 1405650字节

配置

  • 配置名称: default
  • 数据文件:
    • 分割: train
    • 路径: data/train-*

标签

  • synthetic
  • distilabel
  • rlaif
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作