Global Intifada Resource Search Dataset

github2024-10-23 更新2024-11-12 收录

下载链接：

https://github.com/TjhaiME/globalIntifadaResourceSearch

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集最初从Tech4Palestine Discord服务器的“有用资源”部分手动获取。原始的未组织数据可以在`uncleanedData`文件夹中找到。数据集经过分类和字典创建、转换为JSON格式、使用DistilBERT模型生成向量嵌入等步骤进行处理，以便于搜索功能的使用。

This dataset was initially manually obtained from the "Useful Resources" section of the Tech4Palestine Discord server. The raw, unstructured data can be found in the `uncleanedData` folder. The dataset was processed through a series of steps including categorization, dictionary creation, conversion to JSON format, and generation of vector embeddings using the DistilBERT model, to facilitate search functionality.

创建时间：

2024-10-23

原始信息汇总

Global Intifada Resource Search 数据集概述

数据集来源

数据集最初从Tech4Palestine Discord服务器的“useful resources”部分手动获取。
原始未组织的数据存储在uncleanedData文件夹中。

数据处理步骤

分类和字典创建
- 未处理的数据被分类并通过ChatGPT转换为Python字典格式。
- 每个URL作为键，对应的值是一个包含以下内容的字典：
  - userSummary: 资源的简要描述。
  - category: 资源的分类标签。
- 数据存储在summary.py文件中。
转换为JSON格式
- summary.py文件底部包含将字典转换为JSON格式的代码。
- getURLSnippet.py脚本用于从每个URL中抓取og_description和og_title，或记录抓取过程中的错误。
处理额外链接
- moreToAdd.py文件包含需要进一步处理才能被处理的链接。
使用DistilBERT进行嵌入
- makeEmbeddings.py脚本用于使用DistilBERT模型生成组合文本的向量嵌入。
- 嵌入结果保存到单独的JSON文件中以供进一步使用。

搜索功能

静态搜索（命令行）
- 使用search.py脚本可以通过在代码中指定静态搜索提示来执行搜索。
Flask应用程序（Web界面）
- 项目包含一个基于Flask的Web应用程序，允许用户使用自然语言处理搜索资源。
- 在本地运行Flask应用程序：
  
  python flask/app.py
- 这将启动一个运行在localhost上的本地服务器，允许进行简单、交互式的搜索。AI托管在本地，但系统可以轻松适应网站使用。

待办事项

moreToAdd.py文件包含需要进一步处理才能完全集成到数据集中的链接。
修复problems.txt中提到的各种问题。

搜集汇总

数据集介绍

构建方式

在构建Global Intifada Resource Search Dataset时，首先从Tech4Palestine Discord服务器的'useful resources'部分手动收集原始数据，并将其存储在`uncleanedData`文件夹中。随后，通过ChatGPT将这些未整理的数据分类并转换为Python字典格式，其中URL作为键，值包含资源的简要描述和分类标签，存储于`summary.py`文件中。进一步地，使用`getURLSnippet.py`脚本从每个URL中抓取`og_description`和`og_title`，并将字典转换为JSON格式。最后，利用DistilBERT模型生成文本的向量嵌入，并将嵌入结果保存为单独的JSON文件。

特点

Global Intifada Resource Search Dataset的显著特点在于其多层次的数据处理和嵌入技术。首先，数据经过精细的分类和字典化处理，确保了资源的结构化存储和高效检索。其次，通过DistilBERT模型生成的向量嵌入，增强了数据的自然语言处理能力，使得搜索功能更加智能和精准。此外，该数据集支持静态命令行搜索和基于Flask的网页界面搜索，提供了灵活的使用方式。

使用方法

使用Global Intifada Resource Search Dataset时，用户可以通过安装依赖项并运行`python flask/app.py`命令，启动本地Flask服务器，从而在网页界面中进行资源搜索。对于偏好命令行操作的用户，可以运行`search.py`脚本，通过指定静态搜索提示进行查询。此外，数据集的嵌入文件可用于进一步的机器学习任务，如文本分类和相似度计算。

背景与挑战

背景概述

全球抵抗资源搜索数据集（Global Intifada Resource Search Dataset）是由Tech4Palestine倡议下的研究人员创建的，旨在为支持巴勒斯坦科技发展提供有用的资源。该数据集的构建始于从Tech4Palestine Discord服务器的'有用资源'部分手动收集的原始数据。通过ChatGPT的辅助，这些数据被分类并转换为Python字典格式，进一步处理为JSON格式，并使用DistilBERT模型生成向量嵌入，以支持高效的搜索功能。该数据集不仅提供了命令行搜索选项，还通过Flask框架实现了基于Web的搜索界面，极大地提升了资源的可访问性和利用率。

当前挑战

尽管全球抵抗资源搜索数据集在资源分类和搜索功能上取得了显著进展，但仍面临若干挑战。首先，数据集的初始构建依赖于手动收集和ChatGPT的辅助，这可能导致数据质量和一致性问题。其次，部分链接在处理过程中遇到困难，需要进一步的加工才能完全整合到数据集中。此外，数据集的维护和更新也是一个持续的挑战，特别是在处理新加入的资源时，确保其与现有数据的一致性和准确性。最后，尽管已经实现了本地化的AI搜索功能，如何将其扩展到更广泛的应用场景，如网站集成，仍需进一步的技术和资源投入。

常用场景

经典使用场景

在全球范围内，科技与社会运动的结合日益紧密，Global Intifada Resource Search Dataset应运而生，成为Tech4Palestine倡议的重要资源。该数据集通过分类和嵌入技术，将来自Tech4Palestine Discord服务器的资源进行系统化整理，提供命令行和网页两种搜索方式。用户可以通过输入关键词，快速定位到相关资源，极大地提升了信息检索的效率和准确性。

解决学术问题

在学术研究领域，Global Intifada Resource Search Dataset解决了信息碎片化和检索效率低下的问题。通过将分散的资源整合并进行结构化处理，该数据集为研究人员提供了一个高效的信息检索平台。这不仅有助于加速研究进程，还为跨学科研究提供了丰富的数据支持，推动了相关领域的学术发展。

衍生相关工作

基于Global Intifada Resource Search Dataset，许多相关工作得以展开。例如，研究人员利用该数据集进行自然语言处理（NLP）和机器学习（ML）的研究，开发出更高效的文本分类和信息检索算法。同时，该数据集也为社会运动的数据分析提供了新的视角，促进了相关领域的理论和实践创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集