five

MyFixit

收藏
github2024-05-13 更新2024-05-31 收录
下载链接:
https://github.com/rub-ksv/MyFixit-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
MyFixit是一个从iFixit网站收集的维修手册数据集,包含31,601份维修手册,涵盖15种设备类别。其中,Mac Laptop类别的每个步骤都标注了所需工具、拆卸部件和移除动词。

MyFixit is a repair manual dataset collected from the iFixit website, containing 31,601 repair manuals covering 15 device categories. For the Mac Laptop category, each step is annotated with required tools, components to be disassembled, and removal verbs.
创建时间:
2019-12-02
原始信息汇总

MyFixit 数据集

数据集概述

MyFixit 数据集是从 iFixit 网站收集的维修手册集合,共包含 31,601 份维修手册,涵盖 15 种设备类别。其中,Mac Laptop 类别的每个步骤都标注了所需的工具、拆卸部件和移除动词(总计 1,497 份手册,包含 36,659 个步骤)。其他类别尚未进行人工标注。

数据集示例

以下是数据集中一个标注步骤的示例:

json { "Title": "MacBook Unibody Model A1278 Hard Drive Replacement", "Ancestors": ["MacBook", "Mac Laptop", "Mac", "Root"], "Guidid": 816, "Category": "MacBook Unibody Model A1278", "Subject": "Hard Drive", "Toolbox": [ {"Name": ["phillips 00 screwdriver"], "Url": "https://www.ifixit.com/Store/Parts/Phillips-00-Screwdriver/IF145-006", "Thumbnail": "https://da2lh5cs8ikqj.cloudfront.net/cart-products/rLfPqcRxAVqNxfwc.mini"}, {"Name": ["spudger"], "Url": "http://www.ifixit.com/Tools/Spudger/IF145-002", "Thumbnail": "https://da2lh5cs8ikqj.cloudfront.net/cart-products/fIQ3oZSjd1yLgqpX.mini"}, {"Name": ["t6 torx screwdriver"], "Url": "https://www.ifixit.com/Store/Tools/TR6-Torx-Security-Screwdriver/IF145-225", "Thumbnail": ""} ], "Url": "https://www.ifixit.com/Guide/MacBook+Unibody+Model+A1278+Hard+Drive+Replacement/816", "Steps": [{ "Order": 1, "Tools_annotated": ["NA"], "Tools_extracted": ["NA"], "Word_level_parts_raw": [{"name": "battery", "span": [19, 19]}], "Word_level_parts_clean": ["battery"], "Removal_verbs": [{"name": "pull out", "span": [17, 17], "part_index": [0]}], "Lines": [ {"Text": "be sure the access door release latch is vertical before proceeding."}, {"Text": "grab the white plastic tab and pull the battery up and out of the unibody."} ], "Text_raw": "Be sure the access door release latch is vertical before proceeding. Grab the white plastic tab and pull the battery up and out of the Unibody.", "Images": ["https://d3nevzfk7ii3be.cloudfront.net/igi/WkwQip2DfR1iJLMX.standard"], "StepId": 4122 }, ...] }

数据集统计

数据集包含 15 个类别的维修手册,每个类别的统计信息如下:

类别 手册数量 包含唯一文本的步骤数量
Mac 2868 8893
Car and Truck 761 3320
Household 1710 7859
Computer Hardware 927 4502
Appliance 1333 5744
Camera 2761 12000
PC 6677 26181
Electronics 2343 9765
Phone 6005 20573
Game Console 1008 4517
Skills 140 885
Vehicle 374 1815
Media Player 649 2697
Apparel 382 2051
Tablet 2756 10679

每个类别都有一个包含所有收集手册的 JSON 文件,这些手册包含多个步骤和工具。拆解手册不包含在数据集中。

数据格式

JSON 文件是每行一个 JSON 对象的集合。

数据集搜索脚本

提供了一个简单的脚本 search.py,帮助用户查找适当的手册并保存为 XML 或 JSON 格式。脚本接受以下参数:

  • -device: 设备名称(可选)
  • -input: jsons/ 目录中的文件名(必需)
  • -part: 设备维修部件(可选)
  • -format: 输出数据格式,XML 或 JSON(可选,默认是 JSON)
  • -output: 输出文件名(必需)
  • -mintools: 手册中最少工具数量(可选)
  • -minsteps: 手册中最少步骤数量(可选)
  • -verbose: 打印所选手册的标题(可选)
  • -annotatedtool: 仅选择包含所需工具标注的手册(可选)
  • -annotatedpart: 仅选择包含拆卸部件标注的手册(可选)

示例:

sh python search.py -input Mac.json -output tmp -device macbook pro -part battery -mintools 2 -minsteps 15 -format xml -verbose -annotatedtool -annotatedpart

输出:

Total number of matched manuals :29
Title of manuals:
MacBook Pro 17" Models A1151 A1212 A1229 and A1261 Battery Connector Replacement
MacBook Pro 17" Models A1151 A1212 A1229 and A1261 PRAM Battery Replacement
MacBook Pro 15" Core 2 Duo Model A1211 PRAM Battery Replacement
MacBook Pro 15" Core 2 Duo Model A1211 Battery Connector Replacement
MacBook Pro 15" Core Duo Model A1150 PRAM Battery Replacement
MacBook Pro 15" Core Duo Model A1150 Battery Connector Replacement
MacBook Pro 15" Core 2 Duo Models A1226 and A1260 Battery Connector Replacement
MacBook Pro 15" Unibody Late 2008 and Early 2009 Battery Connector Replacement
MacBook Pro 13" Retina Display Late 2012 Battery Replacement
MacBook Pro 13" Retina Display Early 2013 Battery Replacement
MacBook Pro 13" Retina Display Late 2013 Battery Replacement
MacBook Pro 13" Retina Display Mid 2014 Battery Replacement
MacBook Pro 13" Retina Display Early 2015 Battery Replacement
MacBook Pro 13" Function Keys Late 2016 Battery Replacement
MacBook Pro 15" Retina Display Mid 2012 Battery Replacement
MacBook Pro 15" Retina Display Late 2013 Battery Replacement
MacBook Pro 15" Retina Display Mid 2015 Battery Replacement
MacBook Pro 15" Retina Display Early 2013 Battery Replacement
MacBook Pro 15" Retina Display Mid 2014 Battery Replacement
MacBook Pro 13" Retina Display Late 2012 Battery Replacement (Legacy)
MacBook Pro 13" Retina Display Early 2013 Battery Replacement (Legacy)
MacBook Pro 13" Retina Display Late 2013 Battery Replacement (Legacy)
MacBook Pro 13" Retina Display Mid 2014 Battery Replacement (Legacy)
MacBook Pro 13" Retina Display Early 2015 Battery Replacement (Legacy)
MacBook Pro 15" Retina Display Mid 2012 Battery Replacement (Legacy)
MacBook Pro 15" Retina Display Late 2013 Battery Replacement (Legacy)
MacBook Pro 15" Retina Display Mid 2014 Battery Replacement (Legacy)
MacBook Pro 15" Retina Display Early 2013 Battery Replacement (Legacy)
MacBook Pro 15" Retina Display Mid 2015 Battery Replacement (Legacy)
Selected manuals are saved in tmp.xml

数据集引用

如果您发现此数据集或我们的工作有用,请引用:

@InProceedings{nabizadeh-kolossa-heckmann:2020:LREC, author = {Nabizadeh, Nima and Kolossa, Dorothea and Heckmann, Martin}, title = {MyFixit: An Annotated Dataset, Annotation Tool, and Baseline Methods for Information Extraction from Repair Manuals}, booktitle = {Proceedings of The 12th Language Resources and Evaluation Conference}, month = {May}, year = {2020}, address = {Marseille, France}, publisher = {European Language Resources Association}, pages = {2120--2128} }

搜集汇总
数据集介绍
main_image_url
构建方式
MyFixit数据集的构建基于从iFixit网站收集的31,601份维修手册,涵盖15个设备类别。其中,'Mac Laptop'类别的维修手册中的每个步骤都经过人工标注,包括所需的工具、拆卸的部件以及移除动词,总计1,497份手册和36,659个步骤。其他类别的手册尚未进行人工标注。数据集的构建过程遵循LREC 2020会议论文中的详细指南,确保了数据的质量和一致性。
特点
MyFixit数据集的显著特点在于其丰富的维修手册内容和详细的标注信息。每个步骤不仅包含文本描述,还附有工具、部件和动词的标注,为研究信息提取和自然语言处理提供了宝贵的资源。此外,数据集提供了多种格式的数据,包括JSON和XML,便于不同应用场景下的使用。
使用方法
MyFixit数据集的使用方法多样,用户可以通过提供的search.py脚本进行数据检索,支持按设备名称、维修部件、工具数量和步骤数量等条件筛选手册,并可选择输出为JSON或XML格式。此外,数据集还支持与MyFixit Annotator工具的集成,用户可以通过MongoDB导入数据,进行进一步的标注和处理。
背景与挑战
背景概述
MyFixit数据集是由Nima Nabizadeh、Dorothea Kolossa和Martin Heckmann等人于2020年在LREC会议上发布的一个关于维修手册的集合。该数据集从iFixit网站收集了31,601份维修手册,涵盖15个设备类别。特别地,Mac Laptop类别的手册中的每个步骤都经过详细标注,包括所需的工具、拆卸的部件以及移除动词,总计1,497份手册和36,659个步骤。这一数据集的创建旨在支持信息提取技术的研究,尤其是在维修手册中的工具和部件识别方面,对自然语言处理和信息提取领域具有重要意义。
当前挑战
MyFixit数据集在构建过程中面临了多个挑战。首先,维修手册的多样性和复杂性使得数据标注任务变得异常繁琐,尤其是对工具和部件的精确识别。其次,不同设备类别之间的差异性增加了数据处理的难度,尤其是在跨类别的信息提取和模型泛化方面。此外,数据集的规模庞大,如何高效地存储、检索和处理这些数据也是一个重要的技术挑战。最后,尽管部分类别已经进行了人工标注,但其他类别的标注工作尚未完成,这为未来的研究提供了进一步的扩展空间。
常用场景
经典使用场景
MyFixit数据集的经典使用场景主要集中在信息抽取和自然语言处理领域。该数据集通过收集和注释来自iFixit网站的维修手册,提供了丰富的结构化信息,包括所需的工具、拆卸的部件以及相关的动作动词。这些信息对于构建自动化维修指南系统、零件识别和工具推荐等任务具有重要价值。
解决学术问题
MyFixit数据集解决了信息抽取领域中的多个学术研究问题,特别是在维修手册中的工具和部件识别、动作动词标注等方面。通过提供详细的注释和结构化数据,该数据集为研究者提供了一个标准化的基准,促进了相关算法的开发和评估,推动了信息抽取技术在实际应用中的进步。
衍生相关工作
MyFixit数据集的发布催生了一系列相关研究工作,包括基于深度学习的维修步骤自动生成、工具和部件的自动识别与推荐系统等。此外,该数据集还被用于开发和评估自然语言处理模型,特别是在序列标注和信息抽取任务中的应用。这些工作不仅丰富了信息抽取领域的研究内容,也为实际应用提供了技术支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作