SIKO
收藏数据集描述
该数据集是为研究目的创建的,旨在反映韩语在语言模型中的句法特征。它基于KLUE-benchmark数据集,并遵守KLUE-benchmark的许可条款。
处理细节和生成方法
语义保留的词序变化
- 改变词序同时保持句子意义。
- 初始草案由Chat GPT-3.5创建,并由三位注释者审核。
- 为文本分类构建了24.9k数据,为自然语言推理(NLI)构建了30k数据。
非语义保留的词序变化
- 改变词序而不保留句子意义。
- 使用Python的random.shuffle库生成。
格标记删除
- 从句子中删除格标记。
- 使用SKT的形态分析器生成。
混合数据
- 语义保留的词序变化 + 格标记删除
- 非语义保留的词序变化 + 格标记删除
数据集描述
| 字段 | 信息 | 字段 | 信息 |
|---|---|---|---|
| author | 来自KLUE的值 | - | - |
| genre | 来自KLUE的值 | - | - |
| guid | 来自KLUE的值 | - | - |
| gold_label | 来自KLUE的值 | - | - |
| label2 | 来自KLUE的值 | - | - |
| label3 | 来自KLUE的值 | - | - |
| label4 | 来自KLUE的值 | - | - |
| label5 | 来自KLUE的值 | - | - |
| premise | 来自KLUE的值 | - | - |
| hypothesis | 来自KLUE的值 | - | - |
| SIKO_data | SIKO_data | ordinary_data | 由普通韩语母语者生成的数据 |
| semantic_non_preserve_shuffle_data | 语义非保留的词序变化数据 | ||
| semantic_preserve_shuffle_data | 语义保留的词序变化数据 | ||
| ordinary_casemarker_del_data | 删除格标记的普通数据 | ||
| semantic_non_preserve_shuffle_casemarker_del_data | 删除格标记的语义非保留词序变化数据 | ||
| semantic_preserve_shuffle_casemarker_del_data | 删除格标记的语义保留词序变化数据 |
数据示例
SIKO-NLI
json { "guid": "klue-nli-v1_train_00000", "genre": "NSMC", "premise": "힛걸 진심 최고다 그 어떤 히어로보다 멋지다", "hypothesis": "힛걸 진심 최고로 멋지다.", "gold_label": "entailment", "author": "entailment", "label2": "entailment", "label3": "entailment", "label4": "entailment", "label5": "entailment", "SIKO_data": { "ordinary_data": { "premise": "힛걸 진심 최고다 그 어떤 히어로보다 멋지다", "hypothesis": "힛걸 진심 최고로 멋지다." }, "semantic_non_preserve_shuffle_data": { "premise": "그 히어로보다 멋지다 어떤 힛걸 진심 최고다", "hypothesis": "진심 멋지다. 힛걸 최고로" }, "semantic_preserve_shuffle_data": { "premise": "진심 힛걸 최고다 그 어떤 히어로보다 멋지다", "hypothesis": "진심 최고로 멋지다. 힛걸", "annotator": "PNK" }, "ordinary_casemarker_del_data": { "premise": "힛걸 진심 최고다 그 어떤 히어로 멋지다", "hypothesis": "힛걸 진심 최고 멋지다." }, "semantic_non_preserve_shuffle_casemarker_del_data": { "premise": "그 히어로 멋지다 어떤 힛걸 진심 최고다", "hypothesis": "진심 멋지다. 힛걸 최고" }, "semantic_preserve_shuffle_casemarker_del_data": { "premise": "진심 힛걸 최고다 그 어떤 히어로 멋지다", "hypothesis": "진심 최고 멋지다. 힛걸" } } }
SIKO-TC
json { "guid": "ynat-v1_train_00000", "title": "유튜브 내달 2일까지 크리에이터 지원 공간 운영", "predefined_news_category": "IT과학", "label": "생활문화", "annotations": { "annotators": ["08", "13", "07"], "annotations": { "first-scope": ["생활문화", "생활문화", "IT과학"], "second-scope": ["IT과학", "해당없음", "해당없음"], "third-scope": ["해당없음", "해당없음", "해당없음"] } }, "url": "https://news.naver.com/main/read.nhn?mode=LS2D&mid=shm&sid1=105&sid2=227&oid=001&aid=0008508947", "date": "2016.06.30. 오전 10:36", "SIKO_data": { "ordinary_data": { "title": "유튜브 내달 2일까지 크리에이터 지원 공간 운영" }, "semantic_non_preserve_shuffle_data": { "title": "내달 운영 유튜브 2일까지 지원 크리에이터 공간" }, "semantic_preserve_shuffle_data": { "title": "내달 2일까지 유튜브 크리에이터 지원 공간 운영", "annotator": "CSA" }, "ordinary_casemarker_del_data": { "title": "유튜브 내달 2일까지 크리에이터 지원 공간 운영" }, "semantic_non_preserve_shuffle_casemarker_del_data": { "title": "내달 운영 유튜브 2일까지 지원 크리에이터 공간" }, "semantic_preserve_shuffle_casemarker_del_data": { "title": "내달 2일까지 유튜브 크리에이터 지원 공간 운영" } } }




