konsman/quantum-physics-0.5-corpus
收藏Hugging Face2025-12-19 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/konsman/quantum-physics-0.5-corpus
下载链接
链接失效反馈官方服务:
资源简介:
这是一个特定领域的语料库,通过从FineWeb-Edu中使用基于本体论的指导过滤方法创建。数据集专注于量子物理学领域,使用语义相似度与子领域中心的嵌入方法进行过滤。每个数据块包含文本内容、子领域ID、相似度分数、令牌计数、源数据集名称、源文档ID和块索引等信息。
This is a domain-specific corpus created using ontology-guided filtering from FineWeb-Edu. The dataset focuses on the quantum physics domain, using embedding-based semantic similarity to subdomain centroids for filtering. Each chunk contains text content, subdomain ID, similarity score, token count, source dataset name, source document ID, and chunk index.
提供机构:
konsman



