community-datasets/covid_tweets_japanese
收藏Hugging Face2024-06-24 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/covid_tweets_japanese
下载链接
链接失效反馈官方服务:
资源简介:
COVID-19 日本語Twitter数据集包含53,640条日语推文,这些推文被标注为是否与COVID-19相关。标注过程由5到10名众包工人通过多数决定完成。推文的时间范围大约从2020年1月到2020年6月。数据集的结构包括推文ID和评估选项ID,评估选项ID表示推文的内容类型,如一般事实、个人事实、观点/感受等。数据集的语言为日语,主要用于文本分类任务,特别是判断推文是否与COVID-19相关以及是事实还是观点。
提供机构:
community-datasets
原始信息汇总
COVID-19 日本語Twitterデータセット (COVID-19 Japanese Twitter Dataset)
数据集描述
数据集概述
该数据集包含53,640条日语推文,标注了推文是否与COVID-19相关。标注由5至10名众包工作者通过多数决完成。目标推文包含“COVID”或“コロナ”。推文的时间范围大约从2020年1月至2020年6月。原始推文不包含在内,请使用Twitter API获取。
支持的任务和排行榜
文本分类任务,判断推文是否与COVID-19相关,以及是事实还是观点。
语言
数据集中的文本是日语,发布在Twitter上。
数据集结构
数据实例
CSV文件,第一列是Twitter ID,第二列是评估选项ID。
数据字段
tweet_id: Twitter ID。assessment_option_id: 评估选项ID,含义如下:- 63: 一般事实:如新闻等一般发布的信息。
- 64: 个人事实:个人新闻,例如某人听说邻居XX感染了COVID-19,但未在新闻中报道。
- 65: 意见/感受
- 66: 难以确定是否与COVID-19相关(不是“67: 不相关”,但无法确定是63、64、65中的哪一项)
- 67: 不相关
- 68: 是事实,但难以确定是一般事实、个人事实还是印象(可能与COVID-19无关,因为无法区分63至65和67)
数据分割
目前没有关于数据分割的信息。
数据集创建
数据收集和规范化
53,640条日语推文,标注了推文是否与COVID-19相关。目标推文包含“COVID”或“コロナ”。推文的时间范围大约从2020年1月至2020年6月。
标注过程
标注由5至10名众包工作者通过多数决完成。
个人和敏感信息
数据集中不包含原始推文。
使用数据的注意事项
数据集的社会影响
[更多信息待补充]
偏见讨论
[更多信息待补充]
其他已知限制
[更多信息待补充]
附加信息
数据集管理者
数据集由铃木实验室(岐阜大学,日本)托管。
许可信息
CC-BY-ND 4.0
引用信息
相关论文尚未发表。作者建议引用方式为「鈴木 優: COVID-19 日本語 Twitter データセット ( http://www.db.info.gifu-u.ac.jp/data/Data_5f02db873363f976fce930d1 ) 」。
贡献
感谢@forest1988添加此数据集。



