five

MagnetDB

收藏
arXiv2025-01-16 更新2025-02-25 收录
下载链接:
http://arxiv.org/abs/2501.09275v1
下载链接
链接失效反馈
官方服务:
资源简介:
MagnetDB是由俄克拉荷马大学创建的一个大规模种子数据库,涵盖了2018年至2024年间通过BitTorrent DHT发现的2860多万个种子及其相关元数据,总文件数超过9.5亿个,数据量达82.87 PB。该数据集主要关注盗版电影和电视节目的供应情况,并通过IMDb匹配和注释,提供了丰富的元数据信息,如类型、发行年份、评分等。数据集的创建过程依赖于BitTorrent DHT爬虫,持续收集并索引网络中的种子信息。MagnetDB的应用领域包括文化分析、语言学研究、反盗版策略制定等,旨在深入理解BitTorrent网络中的文件共享行为及其背后的社会文化动态。
提供机构:
俄克拉荷马大学
创建时间:
2025-01-16
搜集汇总
数据集介绍
main_image_url
构建方式
MagnetDB的构建基于BitTorrent DHT网络,利用开源的BitTorrent DHT爬虫magnetico收集数据,并通过自定义参数配置增强了爬虫的覆盖范围。数据收集历时超过五年,从2018年12月至2024年9月,收集了超过2860万种torrents和超过9.5亿个文件的元数据。为了聚焦于盗版电影和电视剧的研究,MagnetDB采用了IMDb匹配和标注的方法,将1,562,573个电影和电视剧视频文件与IMDb数据库进行关联,并标注了相应的IMDb标识符。
使用方法
MagnetDB数据集的使用方法包括多种研究方向。文化分析研究人员可以利用数据集研究电影或电视剧的可用性和流行度,以及这些模式与制作时间表或文化事件的关系。语言学家和人类学家可以分析torrent元数据中的命名约定和标签惯例,探讨语言使用如何反映不同发行组和社区中的亚文化身份。政策制定者和行业从业者可以利用数据集来制定反盗版策略,指导法律服务,或提供未经授权分发的范围和规模的更准确视图。此外,数据集还可以用于研究torrent创建者的动机和行为,揭示盗版生态系统中的“礼物经济”动态。
背景与挑战
背景概述
MagnetDB是一个纵向的种子发现数据集,包含了2018年至2024年期间通过BitTorrent DHT发现的超过2860万个种子及其超过9.5亿个文件的元数据。该数据集由俄克拉荷马大学的Scott Seidenberger、Noah Pursell和Anindya Maiti创建,旨在支持基于盗版电影和电视节目的供应方面的研究。通过将IMDb匹配和注释应用于电影和电视节目种子,MagnetDB促进了BitTorrent网络中盗版内容演变的详细分析。研究人员可以利用MagnetDB来检查分布趋势、次文化实践和盗版生态系统中的礼物经济。
当前挑战
MagnetDB面临的挑战包括:1) BitTorrent DHT的种子发现具有挑战性,因为它依赖于从大量节点中收集数据,这需要大量的带宽和计算资源;2) 种子文件名的匹配存在不完整性、误导性和通用性的问题,这增加了与外部数据库如IMDb的自动匹配的复杂性;3) 数据集可能存在潜在的覆盖率偏差,因为任何给定的视角都可能错过具有极短生命周期或存在于网络中较小、局部子图中的种子;4) 数据集的匹配过程存在不完美之处,尽管内部验证和保守的BM25阈值,但虚假匹配和遗漏的标题仍然存在。
常用场景
经典使用场景
MagnetDB数据集主要用于研究BitTorrent网络中非法版权材料的供应侧,特别是盗版电影和电视剧的分布。通过IMDb匹配和注释,该数据集可以分析盗版内容的演变,以及用户在盗版生态系统中的行为和趋势。例如,研究人员可以利用MagnetDB来研究特定电影或电视剧的可用性和流行度,以及这些模式如何与制作时间表或文化活动相关联。此外,该数据集还可以用于研究不同发布组的命名惯例和标签实践,以及语言使用如何反映不同社区和发布组中的亚文化身份。
解决学术问题
MagnetDB数据集解决了现有研究中缺乏纵向、内容中心视角的问题。许多现有研究集中在用户活动、群体动态或短期快照上,而MagnetDB提供了长达五年的纵向视角,可以分析供应侧行为如何随着时间的推移而演变。此外,该数据集还解决了现有研究缺乏对盗版内容供应侧的深入了解的问题,它涵盖了广泛的盗版和合法种子,为研究盗版生态系统中的文化和社会动态提供了独特的机会。
实际应用
MagnetDB数据集的实际应用场景包括文化分析、语言和人类学研究、政策制定和行业实践。例如,文化分析研究人员可以利用该数据集来研究电影或电视剧的可用性和流行度,以及这些模式如何与制作时间表或文化活动相关联。语言学家和人类学家可以研究种子元数据中的命名惯例和标签实践,以及语言使用如何反映不同社区和发布组中的亚文化身份。此外,政策制定者和行业从业者可以利用该数据集来制定反盗版策略,指导法律服务,或提供更准确的未经授权的分发范围和规模。
数据集最近研究
最新研究方向
MagnetDB数据集的最新研究方向主要集中在深入分析BitTorrent网络中盗版内容的供给侧,特别是盗版电影和电视节目的供应趋势、亚文化行为和礼物经济体系。研究者可以利用MagnetDB来探索电影和电视节目的可用性和流行度如何随时间变化,以及这些模式如何与生产时间表或文化事件相关联。此外,还可以通过研究命名惯例和标签实践来分析语言使用如何反映不同发布组和社区中的亚文化身份。对于政策制定者和行业从业者来说,该数据集可以提供有关盗版内容的范围和规模的更准确的信息,并有助于制定反盗版策略和指导法律服务。
相关研究论文
  • 1
    MagnetDB: A Longitudinal Torrent Discovery Dataset with IMDb-Matched Movies and TV Shows俄克拉荷马大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作