pythainlp/wisesight1000
收藏Hugging Face2023-06-14 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/pythainlp/wisesight1000
下载链接
链接失效反馈官方服务:
资源简介:
数据集`wisesight1000`是从`wisesight-sentiment`中随机抽取的泰语社交媒体文本,经过人工标注分词。数据集包含250个样本,每个样本分别标注为`neg`(负面)、`neu`(中性)、`pos`(正面)和`q`(问题)。数据集的目标是为泰语分词算法提供一个接近真实世界文本的基准。数据集的特征包括字符、字符类型(基于deepcut的分词标准)以及是否为词的开头。数据集的创建目的是为了提供一个更接近真实世界文本的分词基准,因为其他泰语分词数据集(如BEST)主要来自新闻文章,缺乏一些真实世界文本的特征(如拼写错误)。
数据集`wisesight1000`是从`wisesight-sentiment`中随机抽取的泰语社交媒体文本,经过人工标注分词。数据集包含250个样本,每个样本分别标注为`neg`(负面)、`neu`(中性)、`pos`(正面)和`q`(问题)。数据集的目标是为泰语分词算法提供一个接近真实世界文本的基准。数据集的特征包括字符、字符类型(基于deepcut的分词标准)以及是否为词的开头。数据集的创建目的是为了提供一个更接近真实世界文本的分词基准,因为其他泰语分词数据集(如BEST)主要来自新闻文章,缺乏一些真实世界文本的特征(如拼写错误)。
提供机构:
pythainlp
原始信息汇总
数据集概述
数据集基本信息
- 名称: wisesight1000
- 语言: 泰语
- 许可证: CC0-1.0
- 多语言性: 单语种
- 大小: 小于1K
- 来源数据集: 扩展自wisesight_sentiment
- 任务类别: 词元分类
- 标签创建者: 专家生成
- 语言创建者: 发现
数据集结构
- 数据实例: 包含泰语社交媒体文本,由人工标注者进行词元化。
- 数据字段:
char: 字符char_type: 字符类型,参考自deepcutis_beginning: 是否为单词开始,1表示是,0表示否
- 数据分割:
- 训练集: 993个样本,1735438字节
数据集创建
- 来源数据: 从wisesight-sentiment中抽样,包含多种文本类型,如消费者产品和服务评论、时事等。
- 标注过程: 由多位标注者完成,包括Nitchakarn Chantarapratin, Pattarawat Chormai等。
- 个人敏感信息处理: 移除了用户名和非公众人物名称,电话号码被屏蔽。
使用考虑
- 社会影响: 作为从野生文本中提取的词元化数据集,有助于评估词元化算法的鲁棒性。
- 偏见讨论: 作者未提供词元化的具体指导方针。
附加信息
- 数据集维护者: PyThaiNLP社区、Kitsuchart Pasupa、Ekapol Chuangsuwanich等。
- 许可证: CC0
- 引用信息: 提供了数据集和字符类型特征的引用格式。



