five

aisuko/simple_english_wikipedia_p0

收藏
Hugging Face2024-02-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/aisuko/simple_english_wikipedia_p0
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 language: - en --- Only for the researching usage. ## The converting process below. ```python # Setting the env os.environ['DATASET_URL']='http://sbert.net/datasets/simplewiki-2020-11-01.jsonl.gz' os.environ['MODEL_NAME']='multi-qa-MiniLM-L6-cos-v1' # Loading the dataset import json import gzip from sentence_transformers.util import http_get http_get(os.getenv('DATASET_URL'), os.getenv('DATASET_NAME')) passages=[] with gzip.open(os.getenv('DATASET_NAME'), 'rt', encoding='utf8') as fIn: for line in fIn: data=json.loads(line.strip()) # add all paragraphs # passages.extend(data['paragraphs']) # only add the first paragraph passages.append(data['paragraphs'][0]) # for paragraph in data['paragraphs']: # # We encode the passages as [title, text] # passages.append([data['title'], paragraph]) len(passages) # Loading the model from sentence_transformers import SentenceTransformer bi_encoder=SentenceTransformer(os.getenv('MODEL_NAME')) bi_encoder.max_seq_length=256 bi_encoder.to('cuda') bi_encoder # normalizing the embeddings from sentence_transformers.util import normalize_embeddings corpus_embeddings=bi_encoder.encode(passages, convert_to_tensor=True, show_progress_bar=True).to('cuda') corpus_embeddings=normalize_embeddings(corpus_embeddings) len(corpus_embeddings) # save to the csv file import pandas as pd embeddings_data=pd.DataFrame(corpus_embeddings.cpu()) embeddings_data.to_csv('simple_english_wikipedia.csv', index=False) ```
提供机构:
aisuko
原始信息汇总

数据集概述

数据来源

  • 数据集URL: http://sbert.net/datasets/simplewiki-2020-11-01.jsonl.gz

数据处理

  • 数据加载:通过http_get函数从指定URL下载数据集。
  • 数据解析:使用gzipjson库解析数据集,提取段落信息。
  • 数据选择:仅提取每篇文章的第一个段落。

模型使用

  • 模型名称:multi-qa-MiniLM-L6-cos-v1
  • 模型加载:使用SentenceTransformer加载模型。
  • 嵌入生成:对提取的段落生成嵌入向量,并进行归一化处理。

数据存储

  • 存储格式:将生成的嵌入向量保存为CSV文件,文件名为simple_english_wikipedia.csv
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作