five

PhillyMac/Marie_Curie_Corpus

收藏
Hugging Face2025-12-16 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/PhillyMac/Marie_Curie_Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是由Deku Corpus Builder自动生成的,用于基于RAG的AI应用。数据集主题为玛丽·居里(Marie Curie),类型为人物传记,包含1,214个项目,所有文本都预先计算了嵌入向量(使用all-MiniLM-L6-v2模型)。每条记录包含文本内容、来源URL、来源标题、来源域名、相关性评分(0-1)、质量评分(0-1)、检测到的主题JSON数组、字符长度、相关主题名称、主题类型("personality"或"topic")、提取日期以及预计算的384维嵌入向量。数据集设计用于与现有嵌入语料库集成,嵌入使用sentence-transformers/all-MiniLM-L6-v2模型,与FAISS索引兼容。

This corpus was automatically generated by the Deku Corpus Builder for use in RAG-based AI applications. The subject is Marie Curie, with a subject type of personality, containing 1,214 items, all with pre-computed embeddings (all-MiniLM-L6-v2 model). Each record contains: text content, source URL, source title, source domain, relevance score (0-1), quality score (0-1), JSON array of detected topics, character count, subject name, subject type ("personality" or "topic"), extraction date, and pre-computed 384-dimensional embedding vector. The dataset is designed to be integrated with existing embedded corpuses, using the sentence-transformers/all-MiniLM-L6-v2 model embeddings compatible with FAISS indexing.
提供机构:
PhillyMac
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作