five

konsman/quantum-physics-0.5-corpus

收藏
Hugging Face2025-12-19 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/konsman/quantum-physics-0.5-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个特定领域的语料库,通过从FineWeb-Edu中使用基于本体论的指导过滤方法创建。数据集专注于量子物理学领域,使用语义相似度与子领域中心的嵌入方法进行过滤。每个数据块包含文本内容、子领域ID、相似度分数、令牌计数、源数据集名称、源文档ID和块索引等信息。

This is a domain-specific corpus created using ontology-guided filtering from FineWeb-Edu. The dataset focuses on the quantum physics domain, using embedding-based semantic similarity to subdomain centroids for filtering. Each chunk contains text content, subdomain ID, similarity score, token count, source dataset name, source document ID, and chunk index.
提供机构:
konsman
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作