word list and query list

github2024-04-15 更新2024-05-31 收录

下载链接：

https://github.com/1234ngochai/PARALLEL-STRING-SEARCHING-ALGORITHM-ON-SHARED-MEMORY-Bloom-filter-

下载链接

链接失效反馈

官方服务：

资源简介：

数据集由《白鲸记》、《小妇人》和莎士比亚作品的文本组合而成，大约有140万个单词，模拟现实世界场景。查询列表由Monash FIT 3143团队提供，包含91,636个单词，用于测试算法的效率和误报率。

The dataset is composed of texts from 'Moby Dick', 'Little Women', and the works of Shakespeare, totaling approximately 1.4 million words, simulating real-world scenarios. The query list, provided by the Monash FIT 3143 team, contains 91,636 words and is used to test the efficiency and false positive rate of algorithms.

创建时间：

2024-04-15

原始信息汇总

数据集概述

数据集内容

主数据集：由"Moby Dick"、"Little Women"和莎士比亚的作品文本组成，总计约1.4百万字。
查询数据集：由Monash FIT 3143团队提供，包含91,636个单词。

数据集用途

用于测试和评估并行Bloom过滤器算法在字符串搜索中的效率和误报率。

数据集特点

并行处理：数据集支持并行处理，包括去重、哈希和查询操作的并行化。
性能评估：数据集用于比较并行算法与串行算法的性能，特别是在处理大规模数据时的效率。

系统配置

CPU：AMD Epyc（每个任务1个CPU）
GPU：NVIDIA RTX
内存：16GB

理论加速

加速计算：使用Amdahls Law计算，并行部分占98.30%，理论上在16线程系统中可实现约15.29倍的加速。

实际应用

性能提升：并行Bloom过滤器在插入和查找时间上显示出显著的性能提升，适用于处理大型数据集。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于经典文学作品，如《白鲸记》、《小妇人》以及莎士比亚的作品，旨在模拟真实世界中的文本场景。数据集包含约140万字的词汇列表，以及由Monash FIT 3143团队提供的91,636个查询词的列表。通过结合这些文本资源，数据集不仅提供了丰富的词汇样本，还确保了查询列表的多样性和实用性，从而为并行字符串搜索算法的性能测试提供了坚实的基础。

特点

该数据集的显著特点在于其规模和多样性。词汇列表涵盖了广泛的文学作品，确保了数据的丰富性和代表性，而查询列表则提供了多样化的测试样本，有助于评估算法的效率和误报率。此外，数据集的设计充分考虑了并行计算的需求，通过去除重复词汇和并行化哈希处理等手段，显著提升了数据处理的效率和算法的性能。

使用方法

该数据集主要用于评估并行布隆过滤器在字符串搜索中的性能。用户可以通过提供的代码文件进行编译和运行，具体操作包括加载词汇列表和查询列表，并根据不同的数据集规模进行性能测试。通过对比并行算法与串行算法的执行时间，用户可以直观地观察到并行计算带来的性能提升。此外，数据集的使用方法还包括对算法的不同阶段进行优化和调整，以进一步提高算法的效率和准确性。

背景与挑战

背景概述

在文本编辑、生物信息学和数据检索等应用中，字符串搜索算法扮演着至关重要的角色。然而，传统的串行实现方法在处理大规模数据时效率低下。为应对这一挑战，本项目聚焦于利用布隆过滤器（Bloom Filter）这一概率性数据结构，通过并行计算技术优化字符串匹配过程。该数据集由《白鲸记》、《小妇人》及莎士比亚作品中的文本组成，包含约140万词，旨在模拟真实世界场景。查询列表则由Monash FIT 3143团队提供，包含91,636个词，用于测试算法的效率和误报率。此数据集的构建旨在通过并行化布隆过滤器的关键组件，如哈希值计算、数据清理和查询操作，显著提升字符串搜索算法的整体效率。

当前挑战

该数据集面临的挑战主要集中在两个方面：一是如何有效并行化布隆过滤器的各个阶段，以实现显著的性能提升；二是如何在实际应用中克服并行计算带来的线程管理和同步问题，确保理论上的加速比在实践中得以实现。具体而言，数据集的构建过程中需处理大规模文本的去重、哈希函数的并行计算以及查询操作的高效处理，这些步骤均需在保证算法准确性的前提下，实现最大化的并行化。此外，实际应用中还需考虑硬件资源的限制，如CPU和GPU的性能，以及内存分配的优化，以确保算法在不同系统配置下的稳定性和高效性。

常用场景

经典使用场景

在文本处理和生物信息学等领域，字符串搜索算法是不可或缺的核心技术。该数据集通过结合《白鲸记》、《小妇人》以及莎士比亚作品中的文本，构建了一个包含约140万单词的词表，并提供了由Monash FIT 3143团队提供的91,636个单词的查询列表。这一数据集的经典使用场景在于评估并优化基于布隆过滤器的并行字符串搜索算法，特别是在处理大规模数据时，通过并行计算技术显著提升字符串匹配的效率。

衍生相关工作

基于该数据集，研究人员已开展了一系列相关工作，包括布隆过滤器的进一步优化、并行计算框架的扩展以及不同硬件平台上的性能评估。例如，有研究探讨了在GPU加速环境下布隆过滤器的并行化实现，进一步提升了算法的执行效率。此外，该数据集还激发了对其他概率数据结构的并行化研究，推动了并行计算技术在数据处理领域的广泛应用。

数据集最近研究