five

CreativeLang/wps_chinese_simile

收藏
Hugging Face2023-07-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CreativeLang/wps_chinese_simile
下载链接
链接失效反馈
官方服务:
资源简介:
Chinese Simile (CS) 数据集是基于在线免费访问的小说构建的,这些小说被标记为科幻、都市小说、爱情故事、青春等类型。所有的比喻句都是通过丰富的正则表达式提取的,提取精度通过标注500个随机样本估计为92%。数据集在论文中的划分情况为:训练集5,485,721条,开发集2,500条,测试集2,500条。建议进一步的数据过滤和处理。数据集的元数据信息包括:类型为比喻,任务类型为检测和生成,大小为5M,创建时间为2021年,语言为中文。

The Chinese Simile (CS) Dataset is constructed using freely accessible online novels annotated with genres such as science fiction, urban fiction, romance, and youth literature. All simile sentences are extracted via a set of comprehensive regular expressions, and the extraction accuracy is estimated to be 92% based on the annotation of 500 randomly selected samples. The dataset is split in the accompanying paper as follows: 5,485,721 samples for the training set, 2,500 for the validation set, and 2,500 for the test set. Further data filtering and processing are recommended. The metadata of the dataset includes: content category is simile, task types cover detection and generation, total size is 5M, creation year is 2021, and the language is Chinese.
提供机构:
CreativeLang
原始信息汇总

WPS - Chinese Simile 数据集概述

数据集描述

数据集总结

  • 名称: Chinese Simile (CS) Dataset
  • 来源: 基于在线免费访问的小说,标签包括科幻、都市小说、爱情故事、青春等。
  • 构建方法: 通过丰富的正则表达式提取所有比喻,提取精度估计为92%。
  • 数据分割:
    • 训练集: 5,485,721
    • 开发集: 2,500
    • 测试集: 2,500

元数据信息

  • CLTK元数据:
    • 类型: 比喻
    • 任务类型: 检测, 生成
    • 大小: 5M
    • 创建时间: 2021
    • 语言: 中文

引用信息

  • 引用格式:

    @inproceedings{Zhang2020WritingPW, title={Writing Polishment with Simile: Task, Dataset and A Neural Approach}, author={Jiayi Zhang and Z. Cui and Xiaoqiang Xia and Ya-Long Guo and Yanran Li and Chen Wei and Jianwei Cui}, booktitle={AAAI}, year={2021} }

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个大规模中文比喻句数据集,包含约550万条从多种类型小说中提取的比喻句,主要用于比喻检测和生成任务。数据集通过正则表达式高精度提取,并提供了标准的训练、开发和测试集划分。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作