five

mesolitica/chatgpt-kg-triplets

收藏
Hugging Face2024-02-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mesolitica/chatgpt-kg-triplets
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为malay-kg-triplets,是一个以知识图谱三元组格式存储的数据集。数据集通过ChatGPT3.5生成,数据来源包括Astroawani新闻和MS Wikipedia。数据集中包含了大量的三元组数据,用于表示实体之间的关系。例如,数据展示了如何从新闻标题、描述和正文中提取三元组信息。数据集的语言为马来语(ms),并且提供了详细的示例数据,展示了如何将自然语言文本转换为知识图谱中的三元组表示。

该数据集名为malay-kg-triplets,是一个以知识图谱三元组格式存储的数据集。数据集通过ChatGPT3.5生成,数据来源包括Astroawani新闻和MS Wikipedia。数据集中包含了大量的三元组数据,用于表示实体之间的关系。例如,数据展示了如何从新闻标题、描述和正文中提取三元组信息。数据集的语言为马来语(ms),并且提供了详细的示例数据,展示了如何将自然语言文本转换为知识图谱中的三元组表示。
提供机构:
mesolitica
原始信息汇总

马来语知识图谱三元组数据集

数据来源

该数据集是通过ChatGPT 3.5从以下来源生成的:

  1. Astroawani新闻,kg-astroawani.translated.jsonl,包含9162行,大小为125MB。
  2. 马来语维基百科,kg-paragraph-wikipedia.translated.jsonl,包含25032行,大小为166MB。

示例数据

以下是一个示例数据的结构:

json { "id": 221733, "title": "Padah jalin hubungan sulit dengan pekerja sendiri, CEO McDonalds dipecat serta merta", "description": "CEO tidak boleh menjalin hubungan dengan mana-mana kakitangan.", "body": [ "SYARIKAT rantaian makanan segera terkemuka dunia, McDonalds Corp mengesahkan telah memecat Ketua Pegawai Eksekutif (CEO), Steve Easterbrook selepas menjalinkan hubungan sulit dengan salah seorang kakitangannya.", "Menurut McDonalds dalam satu kenyataan, tindakan tersebut diambil berikutan Easterbrook, 52, didakwa melanggar polisi syarikat, yang tidak membenarkan CEO mempunyai hubungan dengan mana-mana kakitangan syarikat.", "Susulan pemecatan tersebut, restoran terbesar dunia itu melantik bekas presiden McDonalds Amerika Syarikat (AS), Chris Kempczinski, sebagai CEO baharu berkuat kuasa serta-merta.", "Sementara itu, Easterbrook menerusi emel kepada kakitangannya mengakui hubungan tersebut merupakan satu kesilapan yang bertentangan dengan dasar syarikat.", "Mengambil nilai syarikat ini, saya bersetuju untuk mengundurkan diri, demikian katanya.", "Easterbrook pernah bercerai dan memulakan kerjaya dengan McDonalds pada tahun 1993 sebagai pengurus di London sebelum dinaikkan pangkat.", "Beliau dilantik sebagai CEO McDonalds Corporation pada tahun 2015. -" ], "title_kg": { "triplets": [ {"subject": "Padah", "predicate": "memiliki", "object": "hubungan sulit"}, {"subject": "hubungan sulit", "predicate": "dengan", "object": "pekerja sendiri"}, {"subject": "Padah", "predicate": "dipecat", "object": "CEO McDonalds"} ] }, "description_kg": { "triplets": [ {"subject": "CEO", "predicate": "tidak boleh menjalin hubungan dengan", "object": "kakitangan"} ] }, "body_kg": [ ["SYARIKAT rantaian makanan segera terkemuka dunia, McDonalds Corp mengesahkan telah memecat Ketua Pegawai Eksekutif (CEO), Steve Easterbrook selepas menjalinkan hubungan sulit dengan salah seorang kakitangannya.", {"triplets": [ {"subject": "McDonalds Corp", "predicate": "is a", "object": "worlds leading fast food chain company"}, {"subject": "McDonalds Corp", "predicate": "confirmed", "object": "firing CEO Steve Easterbrook"}, {"subject": "Steve Easterbrook", "predicate": "had", "object": "an inappropriate relationship with an employee"} ]} ], ["Menurut McDonalds dalam satu kenyataan, tindakan tersebut diambil berikutan Easterbrook, 52, didakwa melanggar polisi syarikat, yang tidak membenarkan CEO mempunyai hubungan dengan mana-mana kakitangan syarikat.", {"triplets": [ {"subject": "McDonalds", "predicate": "statement", "object": "Tindakan diambil berikutan Easterbrook didakwa melanggar polisi syarikat yang tidak membenarkan CEO mempunyai hubungan dengan mana-mana kakitangan syarikat."} ]} ], ["Susulan pemecatan tersebut, restoran terbesar dunia itu melantik bekas presiden McDonalds Amerika Syarikat (AS), Chris Kempczinski, sebagai CEO baharu berkuat kuasa serta-merta.", {"triplets": [ {"subject": "restoran terbesar dunia", "predicate": "melantik", "object": "Chris Kempczinski"}, {"subject": "restoran terbesar dunia", "predicate": "sebagai", "object": "CEO"}, {"subject": "restoran terbesar dunia", "predicate": "berkuat kuasa", "object": "serta-merta"} ]} ], ["Sementara itu, Easterbrook menerusi emel kepada kakitangannya mengakui hubungan tersebut merupakan satu kesilapan yang bertentangan dengan dasar syarikat.", {"triplets": [ {"subject": "Easterbrook", "predicate": "admits", "object": "relationship"}, {"subject": "relationship", "predicate": "is", "object": "mistake"}, {"subject": "relationship", "predicate": "contradicts", "object": "company policy"} ]} ], ["Mengambil nilai syarikat ini, saya bersetuju untuk mengundurkan diri, demikian katanya.", {"triplets": [ {"subject": "saya", "predicate": "mengambil", "object": "nilai syarikat ini"}, {"subject": "saya", "predicate": "bersetuju", "object": "mengundurkan diri"} ]} ], ["Easterbrook pernah bercerai dan memulakan kerjaya dengan McDonalds pada tahun 1993 sebagai pengurus di London sebelum dinaikkan pangkat.", {"triplets": [ {"subject": "Easterbrook", "predicate": "bercerai", "object": "true"}, {"subject": "Easterbrook", "predicate": "memulakan kerjaya", "object": "McDonalds"}, {"subject": "Easterbrook", "predicate": "tahun", "object": "1993"}, {"subject": "Easterbrook", "predicate": "pengurus", "object": "London"}, {"subject": "Easterbrook", "predicate": "dinaikkan pangkat", "object": "true"} ]} ], ["Beliau dilantik sebagai CEO McDonalds Corporation pada tahun 2015. -", {"triplets": [ {"subject": "Beliau", "predicate": "dilantik sebagai", "object": "CEO McDonalds Corporation"}, {"subject": "Beliau", "predicate": "pada tahun", "object": "2015"} ]} ] ], "title_kg_ms": [ {"head": "Padah", "type": "mempunyai", "tail": "hubungan sulit"}, {"head": "hubungan sulit", "type": "dengan", "tail": "pekerja sendiri"}, {"head": "Padah", "type": "dipecat", "tail": "CEO McDonalds"} ], "description_kg_ms": [ {"head": "CEO", "type": "tidak boleh menjalin hubungan dengan", "tail": "kakitangan"} ], "body_kg_ms": [ ["SYARIKAT rantaian makanan segera terkemuka dunia, McDonalds Corp mengesahkan telah memecat Ketua Pegawai Eksekutif (CEO), Steve Easterbrook selepas menjalinkan hubungan sulit dengan salah seorang kakitangannya.", [ {"head": "", "type": "mengesahkan", "tail": "yang telah memecat Steve Easterbrook"}, {"head": "Steve Easterbrook", "type": "telah", "tail": "hubungan yang tidak sesuai dengan pekerja"} ] ], ["Menurut McDonalds dalam satu kenyataan, tindakan tersebut diambil berikutan Easterbrook, 52, didakwa melanggar polisi syarikat, yang tidak membenarkan CEO mempunyai hubungan dengan mana-mana kakitangan syarikat.", [] ], ["Susulan pemecatan tersebut, restoran terbesar dunia itu melantik bekas presiden McDonalds Amerika Syarikat (AS), Chris Kempczinski, sebagai CEO baharu berkuat kuasa serta-merta.", [ {"head": "", "type": "melantik", "tail": "Chris Kempczinski"}, {"head": "", "type": "sebagai", "tail": "CEO"} ] ], ["Sementara itu, Easterbrook menerusi emel kepada kakitangannya mengakui hubungan tersebut merupakan satu kesilapan yang bertentangan dengan dasar syarikat.", [ {"head": "Easterbrook", "type": "mengakui", "tail": "hubungan"}, {"head": "hubungan", "type": "ialah", "tail": "kesilapan"}, {"head": "hubungan", "type": "bercanggah", "tail": "dasar syarikat"} ] ], ["Mengambil nilai syarikat ini, saya bersetuju untuk mengundurkan diri, demikian katanya.", [ {"head": "Saya", "type": "mengambil", "tail": "nilai syarikat ini"}, {"head": "Saya", "type": "bersetuju", "tail": "meletak jawatan"} ] ], ["Easterbrook pernah bercerai dan memulakan kerjaya dengan McDonalds pada tahun 1993 sebagai pengurus di London sebelum dinaikkan pangkat.", [ {"head": "Easterbrook", "type": "bercerai", "tail": "benar"}, {"head": "Easterbrook", "type": "memulakan kerjaya", "tail": "McDonalds"}, {"head": "Easterbrook", "type": "tahun", "tail": "1993"}, {"head": "Easterbrook", "type": "pengurus", "tail": "London"}, {"head": "Easterbrook", "type": "dinaikkan pangkat", "tail": "benar"} ] ], ["Beliau dilantik sebagai CEO McDonalds Corporation pada tahun 2015. -", [ {"head": "Beliau adalah CEO McDonalds Corporation", "type": "pada tahun", "tail": "2015"} ] ] ] }

搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,知识图谱的构建是信息结构化的重要环节。mesolitica/chatgpt-kg-triplets数据集通过自动化方法生成,其构建过程基于ChatGPT-3.5模型对马来语新闻和维基百科文本进行深度解析。具体而言,该数据集从Astroawani新闻和马来语维基百科段落中提取信息,并转化为标准的三元组格式。每个三元组由主语、谓语和宾语构成,涵盖了文本中的实体关系与事件描述,最终形成包含超过三万条三元组的结构化知识库,为马来语知识表示提供了可靠的数据基础。
使用方法
针对知识驱动的人工智能应用,该数据集的使用方法聚焦于结构化知识的提取与利用。研究人员可直接加载JSONL格式文件,通过解析'title_kg'、'description_kg'和'body_kg'字段获取三元组信息。这些标注数据适用于训练关系抽取模型、构建知识图谱嵌入或增强问答系统的事实检索能力。在实际应用中,用户可依据研究需求选择英文或马来语三元组版本,实现知识推理、语义搜索或跨语言知识迁移等任务,为马来语信息处理系统的开发提供结构化知识支撑。
背景与挑战
背景概述
在自然语言处理领域,知识图谱的构建对于提升机器对语义关系的理解至关重要。mesolitica/chatgpt-kg-triplets数据集由Mesolitica研究团队于近年创建,专注于从马来语新闻和维基百科文本中提取结构化三元组。该数据集的核心研究问题在于解决低资源语言知识图谱构建的空白,通过自动化方法从非结构化文本中识别实体及其关系,为马来语信息抽取、问答系统和语义搜索等任务提供关键数据支持,对推动多语言人工智能发展具有显著影响力。
当前挑战
该数据集旨在应对马来语知识图谱构建中的领域挑战,包括从复杂新闻文本中准确提取实体关系,以及处理低资源语言中语义表达的多样性。在构建过程中,挑战主要源于自动化生成流程的可靠性,例如依赖ChatGPT3.5可能导致三元组的不一致或噪声;同时,数据来源于多领域文本,需克服领域适应性和标注质量的控制问题,以确保知识图谱的准确性与完整性。
常用场景
经典使用场景
在自然语言处理领域,知识图谱构建是理解文本深层语义的关键环节。mesolitica/chatgpt-kg-triplets数据集以其马来语新闻和维基百科文本为基础,通过ChatGPT3.5生成的标准化三元组结构,为研究人员提供了丰富的实体关系标注数据。该数据集最经典的使用场景在于训练和评估关系抽取模型,帮助算法从非结构化文本中自动识别并结构化实体之间的语义关联,从而支撑下游的图谱补全与推理任务。
解决学术问题
该数据集有效应对了低资源语言知识图谱构建中的标注数据稀缺问题。通过提供大规模、高质量的三元组标注,它使得针对马来语的关系抽取与知识图谱构建研究成为可能,填补了该语言在结构化语义表示方面的空白。其意义在于为跨语言知识迁移、小语种信息处理等前沿课题提供了实证基础,推动了自然语言处理技术的语言包容性发展。
实际应用
在实际应用层面,该数据集能够赋能智能信息检索与内容分析系统。例如,在新闻聚合或舆情监控平台中,利用其标注的三元组可以快速构建事件脉络,实现基于实体关系的精准内容关联与推荐。此外,在商业智能领域,它有助于从企业新闻中自动提取关键人物、事件与政策的关系网络,为决策支持提供结构化知识洞察。
数据集最近研究
最新研究方向
在自然语言处理领域,马来语知识图谱构建正逐渐成为研究热点。mesolitica/chatgpt-kg-triplets数据集通过ChatGPT3.5生成,整合了新闻与维基百科的马来语三元组,为低资源语言的知识表示提供了新途径。当前前沿研究聚焦于利用此类数据集增强跨语言知识图谱对齐,推动多语言信息检索与问答系统的性能提升。随着大语言模型在非英语语种的应用扩展,该数据集为马来语语义理解与自动化知识抽取提供了关键资源,促进了东南亚地区语言技术的均衡发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作