pythainlp/wisesight1000

Name: pythainlp/wisesight1000
Creator: pythainlp
Published: 2023-06-14 08:20:50
License: 暂无描述

Hugging Face2023-06-14 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/pythainlp/wisesight1000

下载链接

链接失效反馈

官方服务：

资源简介：

数据集`wisesight1000`是从`wisesight-sentiment`中随机抽取的泰语社交媒体文本，经过人工标注分词。数据集包含250个样本，每个样本分别标注为`neg`（负面）、`neu`（中性）、`pos`（正面）和`q`（问题）。数据集的目标是为泰语分词算法提供一个接近真实世界文本的基准。数据集的特征包括字符、字符类型（基于deepcut的分词标准）以及是否为词的开头。数据集的创建目的是为了提供一个更接近真实世界文本的分词基准，因为其他泰语分词数据集（如BEST）主要来自新闻文章，缺乏一些真实世界文本的特征（如拼写错误）。

提供机构：

pythainlp

原始信息汇总

数据集概述

数据集基本信息

名称: wisesight1000
语言: 泰语
许可证: CC0-1.0
多语言性: 单语种
大小: 小于1K
来源数据集: 扩展自wisesight_sentiment
任务类别: 词元分类
标签创建者: 专家生成
语言创建者: 发现

数据集结构

数据实例: 包含泰语社交媒体文本，由人工标注者进行词元化。
数据字段:
- char: 字符
- char_type: 字符类型，参考自deepcut
- is_beginning: 是否为单词开始，1表示是，0表示否
数据分割:
- 训练集: 993个样本，1735438字节

数据集创建

来源数据: 从wisesight-sentiment中抽样，包含多种文本类型，如消费者产品和服务评论、时事等。
标注过程: 由多位标注者完成，包括Nitchakarn Chantarapratin, Pattarawat Chormai等。
个人敏感信息处理: 移除了用户名和非公众人物名称，电话号码被屏蔽。

使用考虑

社会影响: 作为从野生文本中提取的词元化数据集，有助于评估词元化算法的鲁棒性。
偏见讨论: 作者未提供词元化的具体指导方针。

附加信息

数据集维护者: PyThaiNLP社区、Kitsuchart Pasupa、Ekapol Chuangsuwanich等。
许可证: CC0
引用信息: 提供了数据集和字符类型特征的引用格式。

5,000+

优质数据集

54 个

任务类型

进入经典数据集