nectec/best2009
收藏数据集概述
名称: best2009
语言: 泰语
许可证: CC-BY-NC-SA 3.0
多语言性: 单语种
数据集大小: 100K<n<1M
源数据: 原始数据
任务类别: 词性标注
标签: 词分割
数据集结构
数据实例
-
字段:
fname,char,char_type,is_beginning -
示例:
{char: [?, ภ, ู, ม, ิ, ป, ั, ญ, ญ, า, ช, า, ว, บ, ้, า, น, ], char_type: [4, 1, 10, 1, 10, 1, 4, 1, 1, 10, 1, 10, 1, 1, 9, 10, 1, 4], fname: encyclopedia_00031.txt, is_beginning: [1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1]} {char: [ภ, ู, ม, ิ, ป, ั, ญ, ญ, า, ช, า, ว, บ, ้, า, น, , ห, ม, า, ย, ถ, ึ, ง, , ค, ว, า, ม, ร, ู, ้, ข, อ, ง, ช, า, ว, บ, ้, า, น, , ซ, ึ, ่, ง, เ, ร, ี, ย, น, ร, ู, ้, ม, า, จ, า, ก, พ, ่, อ, แ, ม, ่, , ป, ู, ่, ย, ่, า, ต, า, ย, า, ย, , ญ, า, ต, ิ, พ, ี, ่, น, ้, อ, ง, , ห, ร, ื, อ, ผ, ู, ้, ม, ี, ค, ว, า, ม, ร, ู, ้, ใ, น, ห, ม, ู, ่, บ, ้, า, น, ใ, น, ท, ้, อ, ง, ถ, ิ, ่, น, ต, ่, า, ง, ๆ, ], char_type: [1, 10, 1, 10, 1, 4, 1, 1, 10, 1, 10, 1, 1, 9, 10, 1, 5, 3, 1, 10, 1, 1, 10, 1, 5, 1, 1, 10, 1, 1, 10, 9, 1, 1, 1, 1, 10, 1, 1, 9, 10, 1, 5, 1, 10, 9, 1, 11, 1, 10, 1, 1, 1, 10, 9, 1, 10, 1, 10, 1, 1, 9, 1, 11, 1, 9, 5, 1, 10, 9, 1, 9, 10, 1, 10, 1, 10, 1, 5, 1, 10, 1, 10, 1, 10, 9, 1, 9, 1, 1, 5, 3, 1, 10, 1, 3, 10, 9, 1, 10, 1, 1, 10, 1, 1, 10, 9, 11, 1, 3, 1, 10, 9, 1, 9, 10, 1, 11, 1, 1, 9, 1, 1, 1, 10, 9, 1, 1, 9, 10, 1, 7, 4], fname: encyclopedia_00031.txt, is_beginning: [1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1]}
数据分割
| 训练集 | 测试集 | |
|---|---|---|
| 行数 | 148,995 | 2,252 |
| 总字节数 | 483129698 | 10498706 |
| 下载大小 | 28084787 | - |
| 数据集大小 | 493628404 | - |
数据集创建
来源数据
- 语言生产者: 文章、新闻、百科和小说各自的作者
注释
- 注释过程: 使用InterBEST2009标准
- 注释者: 未提供详细信息
个人和敏感信息
- 信息来源: 公共来源,不包含个人和敏感信息
使用数据注意事项
- 社会影响: 词分割数据集,来源于文章、新闻、百科和小说
- 偏见讨论: 文本相对正式,使用InterBEST2009标准
- 其他已知限制: 清理了与词分割无关的标签,测试集未提供词边界




