rasdani/cohere-wikipedia-2023-11-fa-queries
收藏Hugging Face2024-05-15 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/rasdani/cohere-wikipedia-2023-11-fa-queries
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是通过distilabel工具创建的,包含了一个`pipeline.yaml`文件,用于重现生成数据集的流程。数据集的结构包括多个字段,如`_id`、`url`、`title`、`text`、`score`、`views`、`model_name`和`query`。数据集只有一个配置`default`,可以通过Hugging Face的`datasets`库加载。
该数据集是通过distilabel工具创建的,包含了一个`pipeline.yaml`文件,用于重现生成数据集的流程。数据集的结构包括多个字段,如`_id`、`url`、`title`、`text`、`score`、`views`、`model_name`和`query`。数据集只有一个配置`default`,可以通过Hugging Face的`datasets`库加载。
提供机构:
rasdani
原始信息汇总
数据集概述
数据集基本信息
- 数据集名称: cohere-wikipedia-2023-11-fa-queries
- 数据集大小: 1302295字节
- 下载大小: 648337字节
- 示例数量: 1500个
- 训练集大小: 1302295字节
数据集特征
- _id: 字符串类型
- url: 字符串类型
- title: 字符串类型
- text: 字符串类型
- score: 浮点数类型
- views: 浮点数类型
- model_name: 字符串类型
- query: 字符串类型
数据集结构
- 配置: 默认配置
- 示例结构: json { "_id": "20231101.fa_7766_23", "model_name": "gpt-4o", "query": "u0686u0631u0627 u0631u0648u0633u200cu0647u0627 u0627u0632 u062au0628u0631u06ccu0632 u062eu0627u0631u062c u0646u0634u062fu0646u062fu061f", "score": 1.0, "text": "u0645u062eu0628u0631u0627u0644u0633u0644u0637u0646u0647 u0627u0632 u0647u0645u0627u0646 u0644u062du0638u0647 u0648u0631u0648u062f u0628u0647 u062au0628u0631u06ccu0632 u0628u0627 u06ccu06a9 u0645u0634u06a9u0644 u062cu062fu06cc u0631u0648u0628u0631u0648 u0634u062fu061b u0631u0648u0633u200cu0647u0627 u0628u0647 u0628u0647u0627u0646u0647 u062du0645u0627u06ccu062a u0627u0632 u0628u0648u0631u0698u0648u0627u0632u06cc u0635u0646u0639u062au06cc u0648 u062au062cu0627u0631u06cc u062au0628u0631u06ccu0632 u0648 u0628u0631u0642u0631u0627u0631u06cc u0646u0638u0645 u0648 u0627u0645u0646u06ccu062au060c u0642u0648u0627u06cc u0646u0638u0627u0645u06cc u062eu0648u062f u0631u0627 u062fu0631 u0634u0647u0631 u0645u0633u062au0642u0631 u06a9u0631u062fu0647 u0628u0648u062fu0646u062f. u0627u0633u062au0627u0646u062fu0627u0631 u0645u0634u0631u0648u0637u0647u200cu062eu0648u0627u0647 u0627u0632 u0631u0648u0633u200cu0647u0627 u062eu0648u0627u0633u062a u062du0627u0644u0627 u06a9u0647 u062au0647u0631u0627u0646 u0628u0647 u062fu0633u062a u0645u0634u0631u0648u0637u0647u200cu062eu0648u0627u0647u0627u0646 u0627u0641u062au0627u062fu0647 u0648 u0627u062fu0627u0631u0647 u0645u0645u0644u06a9u062a u0628u0631u0627u0633u0627u0633 u0642u0627u0646u0648u0646 u0627u0633u062au0648u0627u0631 u0634u062fu0647u060c u0644u0632u0648u0645u06cc u0628u0647 u062du0636u0648u0631 u0631u0648u0633u200cu0647u0627 u0646u06ccu0633u062a u0648 u0628u0627u06ccu062f u0642u0648u0627u06cc u0646u0638u0627u0645u06cc u0631u0648u0633 u0627u0632 u062au0628u0631u06ccu0632 u062eu0627u0631u062c u0634u0648u0646u062f. u0631u0648u0633u200cu0647u0627 u0627u063au062au0634u0627u0634 u0648 u0646u0627 u0627u0645u0646u06cc u0634u0647u0631 u0631u0627 u0645u062eu0644 u0627u0645u0646u06ccu062a u062au0627u062cu0631u0627u0646 u062fu0648 u062au0627u0628u0639u06ccu062au06cc u062au0628u0631u06ccu0632 u0645u06ccu200cu062fu0627u0646u0633u062au0646u062f u0648 u062du0636u0648u0631 u0627u0641u0631u0627u062f u0645u0633u0644u062d u063au06ccu0631u062fu0648u0644u062au06cc u0627u0632 u062cu0645u0644u0647 u0633u062au0627u0631u062eu0627u0646 u0648 u0628u0627u0642u0631u062eu0627u0646 u0631u0627 u0628u0647u0627u0646u0647 u06a9u0631u062fu0647 u0648 u0628u0647 u062fu0631u062eu0648u0627u0633u062a u062fu0648u0644u062a u0645u0634u0631u0648u0637u0647 u0627u06ccu0631u0627u0646 u067eu0627u0633u062e u0645u062bu0628u062a u0646u062fu0627u062fu0646u062f.", "title": "u0633u062au0627u0631u062eu0627u0646", "url": "https://fa.wikipedia.org/wiki/%D8%B3%D8%AA%D8%A7%D8%B1%D8%AE%D8%A7%D9%86", "views": 8794.55436178889 }
数据集加载
- 加载方式: python from datasets import load_dataset ds = load_dataset("rasdani/cohere-wikipedia-2023-11-fa-queries")



