five

pythainlp/wisesight1000

收藏
Hugging Face2023-06-14 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/pythainlp/wisesight1000
下载链接
链接失效反馈
官方服务:
资源简介:
数据集`wisesight1000`是从`wisesight-sentiment`中随机抽取的泰语社交媒体文本,经过人工标注分词。数据集包含250个样本,每个样本分别标注为`neg`(负面)、`neu`(中性)、`pos`(正面)和`q`(问题)。数据集的目标是为泰语分词算法提供一个接近真实世界文本的基准。数据集的特征包括字符、字符类型(基于deepcut的分词标准)以及是否为词的开头。数据集的创建目的是为了提供一个更接近真实世界文本的分词基准,因为其他泰语分词数据集(如BEST)主要来自新闻文章,缺乏一些真实世界文本的特征(如拼写错误)。

数据集`wisesight1000`是从`wisesight-sentiment`中随机抽取的泰语社交媒体文本,经过人工标注分词。数据集包含250个样本,每个样本分别标注为`neg`(负面)、`neu`(中性)、`pos`(正面)和`q`(问题)。数据集的目标是为泰语分词算法提供一个接近真实世界文本的基准。数据集的特征包括字符、字符类型(基于deepcut的分词标准)以及是否为词的开头。数据集的创建目的是为了提供一个更接近真实世界文本的分词基准,因为其他泰语分词数据集(如BEST)主要来自新闻文章,缺乏一些真实世界文本的特征(如拼写错误)。
提供机构:
pythainlp
原始信息汇总

数据集概述

数据集基本信息

  • 名称: wisesight1000
  • 语言: 泰语
  • 许可证: CC0-1.0
  • 多语言性: 单语种
  • 大小: 小于1K
  • 来源数据集: 扩展自wisesight_sentiment
  • 任务类别: 词元分类
  • 标签创建者: 专家生成
  • 语言创建者: 发现

数据集结构

  • 数据实例: 包含泰语社交媒体文本,由人工标注者进行词元化。
  • 数据字段:
    • char: 字符
    • char_type: 字符类型,参考自deepcut
    • is_beginning: 是否为单词开始,1表示是,0表示否
  • 数据分割:
    • 训练集: 993个样本,1735438字节

数据集创建

  • 来源数据: 从wisesight-sentiment中抽样,包含多种文本类型,如消费者产品和服务评论、时事等。
  • 标注过程: 由多位标注者完成,包括Nitchakarn Chantarapratin, Pattarawat Chormai等。
  • 个人敏感信息处理: 移除了用户名和非公众人物名称,电话号码被屏蔽。

使用考虑

  • 社会影响: 作为从野生文本中提取的词元化数据集,有助于评估词元化算法的鲁棒性。
  • 偏见讨论: 作者未提供词元化的具体指导方针。

附加信息

  • 数据集维护者: PyThaiNLP社区、Kitsuchart Pasupa、Ekapol Chuangsuwanich等。
  • 许可证: CC0
  • 引用信息: 提供了数据集和字符类型特征的引用格式。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作