defunct-datasets/amazon_reviews_multi|多语言文本处理数据集|情感分析数据集
收藏数据集卡片:The Multilingual Amazon Reviews Corpus
数据集描述
数据集摘要
The Multilingual Amazon Reviews Corpus 是一个用于多语言文本分类的亚马逊产品评论数据集。该数据集包含英语、日语、德语、法语、中文和西班牙语的评论,收集时间从2015年11月1日至2019年11月1日。每个记录包含评论文本、评论标题、星级评分、匿名评论者ID、匿名产品ID和粗粒度产品类别(如‘书籍’、‘家电’等)。数据集在星级上进行了平衡,每种语言的每个星级评分占20%。
每种语言的训练集、验证集和测试集分别包含200,000、5,000和5,000条评论。每个评论者的最大评论数为20,每个产品的最大评论数为20。所有评论在2,000个字符后截断,且至少有20个字符。
支持的任务和排行榜
[更多信息待补充]
语言
数据集包含英语、日语、德语、法语、中文和西班牙语的评论。
数据集结构
数据实例
每个数据实例对应一条评论。以下是一个德语评论的示例:
json { "review_id": "de_0784695", "product_id": "product_de_0572654", "reviewer_id": "reviewer_de_0645436", "stars": "1", "review_body": "Leider, leider nach einmal waschen ausgeblichen . Es sieht super hu00fcbsch aus , nur leider stinkt es ganz schrecklich und ein Waschgang in der Maschine ist notwendig ! Nach einem mal waschen sah es aus als wu00e4re es 10 Jahre alt und hatte 1000 e von Waschgu00e4ngen hinter sich :( echt schade !", "review_title": "Leider nicht zu empfehlen", "language": "de", "product_category": "home" }
数据字段
review_id
: 评论的字符串标识符。product_id
: 被评论产品的字符串标识符。reviewer_id
: 评论者的字符串标识符。stars
: 1-5之间的整数,表示星级评分。review_body
: 评论的文本内容。review_title
: 评论的文本标题。language
: 评论语言的字符串标识符。product_category
: 产品类别的字符串表示。
数据分割
每种语言配置都有自己的train
、validation
和test
分割。all_languages
分割是所有语言相应分割的简单连接。例如,all_languages
的train
分割是每种语言train
分割的连接,validation
和test
也是如此。
数据集创建
策划理由
该数据集的动机是为了推动其他(非英语)语言的情感分析和文本分类研究。
源数据
初始数据收集和规范化
作者从美国、日本、德国、法国、西班牙和中国的市场收集了英语、日语、德语、法语、西班牙语和中文的评论。然后通过应用语言检测算法确保正确的语言,只保留目标语言的评论。
源语言生产者
原始文本来自在亚马逊市场上对各种产品类别进行评论的亚马逊客户。
注释
注释过程
每个包含的字段都是由用户在提交评论时提供的,或者与评论相关联的。不需要手动或机器驱动的注释。
注释者
N/A
个人和敏感信息
根据原始数据集的许可条款,您不得:
- 将评论语料库中的内容与任何个人信息(包括亚马逊客户账户)关联或联系,或
- 尝试确定评论语料库中任何内容的作者身份。
如果您违反上述任何条件,您访问和使用评论语料库的许可将自动终止。
使用数据的注意事项
数据集的社会影响
该数据集是鼓励在非英语语言中进行文本分类研究的一部分。这样的工作增加了自然语言技术对更多地区和文化的可访问性。不幸的是,这里包含的每种语言都是相对高资源且研究充分的。
偏见的讨论
数据集仅包含已验证购买的评论(如论文第2.1节所述),并且评论应符合亚马逊社区指南。
其他已知限制
数据集的构建使得星级评分的分布是平衡的。这一特性对分类目的有一些优势,但某些类型的语言可能相对于原始评论分布而言过度或不足。
附加信息
数据集策展人
由Phillip Keung、Yichao Lu、György Szarvas和Noah A. Smith发布。由亚马逊管理。
许可信息
亚马逊已根据其自己的非商业研究使用协议许可此数据集。该许可相当限制性,防止在任何收取费用的地方使用,包括付费实习等。许可协议的副本可以在数据集网页上找到。
引用信息
如果您发现此数据集有用,请引用以下论文:
Phillip Keung, Yichao Lu, György Szarvas and Noah A. Smith. “The Multilingual Amazon Reviews Corpus.” In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing, 2020.
@inproceedings{marc_reviews, title={The Multilingual Amazon Reviews Corpus}, author={Keung, Phillip and Lu, Yichao and Szarvas, György and Smith, Noah A.}, booktitle={Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing}, year={2020} }
贡献
感谢@joeddav添加此数据集。
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
Materials Project 在线材料数据库
Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。
超神经 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
ICESat-2 Data
ICESat-2 Data 是由美国国家航空航天局(NASA)发布的卫星数据集,主要用于全球冰层和陆地高程的测量。该数据集包括高精度激光测高数据,用于研究冰川、海冰、植被和地形变化。
icesat-2.gsfc.nasa.gov 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录