five

Collocate Analysis and KWIC of Anglais

收藏
DataCite Commons2025-09-30 更新2026-02-09 收录
下载链接:
https://figshare.com/articles/dataset/Collocate_Analysis_and_KWIC_of_Anglais/30251800/1
下载链接
链接失效反馈
官方服务:
资源简介:
This file contains a collocate analysis dataset for the term "anglais" (English) across three corpora: AlgPress, FrenPress, and OppPress. Each row represents a collocate (a word frequently appearing near "anglais") with associated metrics. Columns include:- **Index**: Unique identifier for each collocate entry.- **Corpus**: Source corpus (AlgPress, FrenPress, or OppPress).- **Position**: Position of the collocate relative to the node word ("L" for left, "R" for right, "M" for mixed).- **Collocate**: The word co-occurring with "anglais."- **Stat**: Statistical measure of association strength (likely log-likelihood or similar).- **LogDice**: LogDice score, a measure of collocation strength.- **Freq (coll)**: Frequency of the collocate in the context of "anglais."- **Freq (corpus)**: Total frequency of the collocate in the corpus.<br>The dataset is useful for linguistic research, particularly in analyzing the contextual use of "anglais" in Algerian and French press corpora, focusing on educational and linguistic policy discussions. It supports studies in corpus linguistics, sociolinguistics, and language policy in multilingual contexts.Usage Notes: The file is in CSV format, suitable for analysis with tools like R, Python (pandas), or spreadsheet software. Researchers should note the specific statistical measures (Stat and LogDice) for interpreting collocation significance. The data can be used to compare linguistic patterns across the three corpora, reflecting different perspectives on English language adoption in Algeria.

本数据集用于针对术语“anglais”(即英语)在三个语料库——AlgPress、FrenPress与OppPress——中的搭配情况展开分析。每一行代表一个搭配词(Collocate),即与“anglais”高频共现的词汇,并附带相关关联度量指标。各列说明如下: - **索引(Index)**:每条搭配词条目的唯一标识符。 - **语料库(Corpus)**:数据来源语料库(可选值为AlgPress、FrenPress或OppPress)。 - **位置(Position)**:搭配词相对于节点词“anglais”的位置(“L”代表左侧,“R”代表右侧,“M”代表混合位置)。 - **搭配词(Collocate)**:与“anglais”存在共现关系的词汇。 - **关联度统计量(Stat)**:表征搭配关联强度的统计指标(大概率为对数似然比或同类指标)。 - **LogDice**:LogDice得分,用于量化搭配强度。 - **搭配词语境频次(Freq (coll))**:搭配词在“anglais”语境下的出现频次。 - **语料库总频次(Freq (corpus))**:该搭配词在对应语料库中的总出现频次。 本数据集适用于语言学研究领域,尤其可用于分析阿尔及利亚与法国新闻语料库中“anglais”的语境使用特征,聚焦教育与语言政策相关议题。其可为语料库语言学、社会语言学以及多语言环境下的语言政策研究提供数据支撑。 使用说明:本数据集采用CSV格式,可通过R、Python(pandas)或电子表格软件等工具进行分析。研究者在解读搭配显著性时,需重点关注关联度统计量(Stat)与LogDice得分两项指标。本数据集可用于对比三个语料库中的语言使用模式,反映阿尔及利亚境内英语语言接纳的不同社会视角。
提供机构:
figshare
创建时间:
2025-09-30
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作