TransLiveCorpus
收藏github2022-12-28 更新2024-05-31 收录
下载链接:
https://github.com/wsh/TransLiveCorpus
下载链接
链接失效反馈官方服务:
资源简介:
TransLiveCorpus是一个数据库,由一个应用程序创建,该应用程序处理半结构化文本数据,并创建一个适合程序化分析异步交互数据中词汇变异和变化的结构。数据内容来自LiveJournal.com上围绕不同类型跨性别者的四个社区,包括FTM、MTF、TRANSGENDER和GENDERQUEER。
The TransLiveCorpus is a database generated by an application that processes semi-structured textual data and constructs a framework suitable for the programmatic analysis of lexical variation and change in asynchronous interaction data. The data is sourced from four communities on LiveJournal.com, focusing on different types of transgender individuals, including FTM, MTF, TRANSGENDER, and GENDERQUEER.
创建时间:
2021-09-28
原始信息汇总
数据集概述
数据集名称
TransLiveCorpus (TLC)
数据集内容
TLC包含来自四个围绕不同类型跨性别者的社区的公开帖子及其评论,这些社区在2000年至2017年间活跃于LiveJournal.com。具体包括:
- FTM (跨男性及其他跨男性身份谱系的人)
- MTF (跨女性及其他跨女性身份谱系的人)
- TRANSGENDER (一般跨性别者)
- GENDERQUEER (性别身份和表现超越二元的人)
数据集统计
| 社区 | 帖子数量 | 评论数量 | 总字数 |
|---|---|---|---|
| FTM | 19,643 | 207,579 | 17,034,982 |
| TRANSGENDER | 5,930 | 34,498 | 3,586,914 |
| GENDERQUEER | 3,167 | 18,560 | 1,833,638 |
| MTF | 1,800 | 13,310 | 1,165,400 |
| 总计 | 30,540 | 273,947 | 23,620,934 |
数据集结构
每个条目包含以下信息:
- 条目ID(帖子及其所有评论的代码)
- 评论ID(评论的代码;如无评论ID,则为评论)
- 用户名(帖子或评论作者)
- 发布日期(帖子或评论的日期)
- 内容(帖子或评论的内容)
数据集创建
TLC是通过一个名为livecorpus的爬虫管道创建的,该管道使用Python 3编写,运行在Google App Engine上,并利用Google Cloud Platform进行数据处理和存储。
引用信息
Hayworth, Will & Zimman, Lal (2021). TransLiveCorpus. https://github.com/wsh/TransLiveCorpus.
搜集汇总
数据集介绍

构建方式
TransLiveCorpus数据集的构建依托于livecorpus爬虫管道,该管道专为处理LiveJournal.com上的半结构化文本数据而设计。由于LiveJournal的HTML格式主要面向浏览器展示而非机器可读性,原始数据需经过显著转换以支持程序化分析。爬虫采用Python 3编写,运行于Google App Engine上,利用BeautifulSoup解析HTML页面,并通过Cloud Tasks管理链接的抓取与解析任务,确保符合LiveJournal的连接速率限制。解析后的数据存储于Cloud Firestore,采用与LiveJournal结构相匹配的层次化数据模型,便于后续分析。
特点
TransLiveCorpus数据集聚焦于2000年至2017年间四个与跨性别者相关的LiveJournal社区(FTM、MTF、TRANSGENDER、GENDERQUEER)的公开帖子及评论。数据集以时间顺序呈现条目,帖子与评论交织排列,每条记录包含条目ID、评论ID、用户名、发布日期及内容等字段。该数据集不仅提供了丰富的语言变异与变化研究素材,还反映了跨性别社群在特定历史时期的互动与身份表达。
使用方法
使用TransLiveCorpus数据集需在Google Cloud上创建项目,并在代码中配置项目ID及用户代理信息。数据集的结构化设计使其适用于程序化分析,用户可通过Cloud Firestore访问数据,结合Python等编程语言进行文本挖掘、社会语言学分析等研究。此外,数据集的使用需遵循相关引用规范,确保学术研究的透明性与可追溯性。
背景与挑战
背景概述
TransLiveCorpus(TLC)是由Will Hayworth和Lal Zimman于2021年创建的一个专注于跨性别社群语言变体与变化的数据库。该数据集源自2000年至2017年间LiveJournal.com上四个跨性别相关社区的公开帖子和评论,涵盖FTM、MTF、TRANSGENDER和GENDERQUEER等社群。TLC的构建旨在为异步互动数据中的词汇变异和变化提供程序化分析的基础,其内容按时间顺序排列,包含帖子、评论及其元数据。该数据集为语言学家和社会学家研究跨性别社群的语言使用及其社会政治背景提供了宝贵的资源。
当前挑战
TransLiveCorpus的构建面临多重挑战。首先,LiveJournal的HTML格式设计用于浏览器显示而非机器可读性,因此需要对原始数据进行大量转换以使其适合分析。其次,爬虫程序需要处理复杂的页面结构,并确保在遵守LiveJournal的访问速率限制(每秒不超过5次连接)的前提下高效抓取数据。此外,数据存储和管理的复杂性要求使用Google Cloud Platform的NoSQL数据库Cloud Firestore,以匹配LiveJournal的层次化数据结构。这些技术挑战使得TLC的构建过程既复杂又耗时,但也为类似数据集的构建提供了宝贵经验。
常用场景
经典使用场景
TransLiveCorpus数据集在语言学和社会科学领域中被广泛用于研究性别身份标签的词汇变化和社会政治影响。通过分析2000年至2017年间LiveJournal平台上四个跨性别社区(FTM、MTF、TRANSGENDER、GENDERQUEER)的帖子和评论,研究者能够追踪性别相关词汇的演变及其背后的社会动态。
解决学术问题
该数据集解决了跨性别群体语言使用模式的研究难题,特别是词汇变化与社会政治变革之间的关系。通过提供结构化的异步互动数据,TransLiveCorpus为研究者提供了分析性别身份标签演变的新方法,填补了传统语料库在性别研究领域的空白。
衍生相关工作
基于TransLiveCorpus,研究者发表了多篇经典论文,如Zimman和Hayworth(2020a,b)关于跨性别和顺性别身份标签词汇变化的研究。这些工作不仅推动了语言学领域的发展,还为性别研究提供了新的方法论框架。
以上内容由遇见数据集搜集并总结生成



