KpopMT|Kpop文化数据集|机器翻译数据集
收藏KpopMT: Translation Dataset with Terminology for Kpop Fandom
概述
KpopMT数据集旨在解决社交群体中特有的术语翻译挑战。该数据集选择了全球流行的Kpop粉丝群体作为研究对象,通过专家翻译提供1000条韩语帖子和评论的英文翻译,每条翻译都标注了社交群体语言系统中的特定术语。
目标
KpopMT数据集的目标是填补社交群体中术语翻译的空白,并通过评估现有的翻译系统(包括GPT模型)在KpopMT上的表现,识别其在反映群体特定术语和风格方面的失败案例。
扩展计划
计划将KpopMT数据集扩展到其他社交群体,如体育和全球电影社区。
引用
bibtex @misc{kim2024kpopmttranslationdatasetterminology, title={KpopMT: Translation Dataset with Terminology for Kpop Fandom}, author={JiWoo Kim and Yunsu Kim and JinYeong Bak}, year={2024}, eprint={2407.07413}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2407.07413}, }

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
中国行政区划数据
本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。
github 收录
Global Water Quality Dataset
该数据集包含了全球多个地区的水质监测数据,涵盖了多种水质参数,如pH值、溶解氧、电导率、温度等。数据集旨在帮助研究人员和政策制定者了解全球水质的现状和变化趋势。
www.kaggle.com 收录
网易云音乐数据集
该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。
github 收录
Traditional-Chinese-Medicine-Dataset-SFT
该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。
huggingface 收录