five

thai-joke-corpus

收藏
github2022-02-04 更新2024-05-31 收录
下载链接:
https://github.com/iapp-technology/thai-joke-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个收集自4个泰国笑话Facebook页面的泰国笑话数据集,由iApp Technology Co, Ltd.收集。数据集仅包含文本,不包括图像。数据集详细记录了每个笑话的来源、发布时间、发布者信息、反应计数、喜欢计数、评论计数以及笑话文本。

This is a dataset of Thai jokes collected from four Thai joke Facebook pages, gathered by iApp Technology Co, Ltd. The dataset contains only text and does not include images. It meticulously records the source of each joke, the time of publication, publisher information, reaction counts, like counts, comment counts, and the text of the jokes.
创建时间:
2019-09-15
原始信息汇总

数据集概述

数据集名称

  • 名称: thai-joke-corpus

数据来源

  • 来源: 从4个泰国笑话Facebook页面收集
  • 收集者: iApp Technology Co, Ltd.

数据内容

  • 类型: 仅包含文本,无图像

数据字段

  • source: Facebook页面名称
  • utime: 帖子UNIX时间
  • name: 发帖人姓名
  • name_URL: 发帖人个人资料URL
  • reaction_count: 总反应数
  • like_count: 总点赞数
  • comments_count: 评论数
  • text: 泰国笑话文本

数据示例

talokkamkun,1379913892,แสดงความคิดเห็น,https://www.facebook.com/talokkamkun/#,71,71,0,[#ไม่น่ารอด] แอร์โฮสเตส สายการบินที่ตกบ่อยๆ ประกาศก่อนเครื่องออก ท่านผู้โดยสารทุกท่านโปรดทราบ เที่ยวบินสู่เมืองปักกิ่งกำลังจะออกเดินทาง ณ บัดนี้แล้ว... เพื่อความปลอดภัย ขอให้ทุกท่านโปรดคาดเข็มขัดนิรภัย หากท่านที่พบว่า เข็มขัดนิรภัยตรงที่นั่งท่านชำรุด กรุณา มัดไว้ด้วยเงื่อนพิรอดนะคะ กรุณาอย่าใช้เงื่อนตาย ถ้าท่านหาสายรัดเข็มขัดนิรภัยไม่พบ กรุณาย้ายไปที่นั่งอื่นที่ว่างอยู่ ทั้งนี้ขอให้ท่านได้โปรดวางใจ ถึงแม้เครื่องบินของเราจะเก่า แต่ทั้งนักบินและนักบินผู้ช่วยของเรา ยังใหม่อยู่นะคะ... >>แอดมิน_แชมป์<<

数据集大小

  • 数量: 449个笑话
搜集汇总
数据集介绍
main_image_url
构建方式
thai-joke-corpus数据集的构建基于从四个泰国笑话Facebook页面抓取的内容,这些页面由iApp Technology Co, Ltd.收集。数据集仅包含文本信息,未涉及图像数据。每个笑话条目均记录了来源页面名称、发布时间(UNIX时间)、发布者姓名、发布者个人主页URL、总反应数、点赞数、评论数以及笑话文本内容。
特点
该数据集的特点在于其专注于泰国文化中的幽默表达,提供了449个独特的泰国笑话文本。每个笑话条目详细记录了社交互动数据,如反应数、点赞数和评论数,这些数据为研究泰国社交媒体的用户行为和幽默文化提供了丰富的素材。此外,数据集的文本内容均为泰语,为语言学和自然语言处理领域的研究提供了特定语言的资源。
使用方法
thai-joke-corpus数据集适用于多种研究场景,包括但不限于自然语言处理、社交媒体分析和文化研究。研究者可以利用该数据集进行泰语文本的情感分析、幽默检测或语言模型训练。此外,数据集中的社交互动数据可用于分析用户对特定类型内容的反应,从而洞察泰国社交媒体用户的偏好和行为模式。
背景与挑战
背景概述
thai-joke-corpus数据集由iApp Technology Co, Ltd.于近年创建,旨在收集和分析泰国民间笑话的文化特征及其在社交媒体上的传播模式。该数据集通过从四个泰国笑话Facebook页面抓取文本内容,涵盖了449条笑话,每条笑话均包含发布者信息、发布时间、反应数量及文本内容。这一数据集的建立不仅为泰语自然语言处理提供了宝贵的语料资源,也为研究泰国文化中的幽默元素及其社会影响提供了新的视角。
当前挑战
thai-joke-corpus数据集面临的主要挑战包括泰语特有的语言结构和文化背景的复杂性,这为自然语言处理技术的应用带来了难度。此外,数据集中仅包含文本信息,缺乏图像等多媒体内容,限制了多模态分析的可能性。在数据构建过程中,如何准确抓取和清洗社交媒体上的非结构化数据,以及如何处理泰语中的俚语和方言,都是构建高质量数据集的关键挑战。
常用场景
经典使用场景
在自然语言处理领域,thai-joke-corpus数据集为研究泰语幽默文本的语义分析和情感识别提供了丰富的素材。通过分析这些笑话的文本内容,研究者可以深入探讨泰语幽默的独特表达方式和文化背景,进而开发出更精准的语言模型。
衍生相关工作
基于thai-joke-corpus数据集,研究者已经开发出多种泰语文本分析工具和模型。例如,一些研究利用该数据集训练了泰语情感分析模型,能够自动识别和分类泰语文本中的情感倾向。此外,还有研究利用该数据集进行泰语幽默文本的生成和翻译,进一步推动了泰语自然语言处理技术的发展。
数据集最近研究
最新研究方向
在自然语言处理领域,thai-joke-corpus数据集为研究泰语幽默文本的自动生成和理解提供了宝贵的资源。近年来,随着深度学习技术的进步,研究者们开始探索如何利用此类数据集训练模型,以捕捉泰语幽默的独特文化背景和语言特征。这些研究不仅推动了泰语自然语言处理技术的发展,也为跨文化幽默理解提供了新的视角。此外,该数据集还被用于情感分析和社交媒体内容分析,帮助理解泰语用户在社交平台上的互动模式和情感表达。这些研究方向的进展,对于提升机器在泰语环境下的自然语言理解和生成能力具有重要意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作