学术资讯 » 学术资源

  • 首 页
  • 期刊选题
  • 期刊点评
  • 期刊大全
  • 学人博客
  • 编辑征稿
  • 投稿选刊
  • 投稿群聊
  • 学术会议
  • 万维读书
  • SCI/E期刊
  • SSCI期刊
  • AHCI期刊
  • 第四讲 R-描述性统计分析

    阅读: 2022/5/19 10:09:26

    在上一讲中,我们介绍了第三讲 R编程基础-矩阵和数据框 。到现在为止,大家已经学完了R语言的基础知识,马上就开始进阶地学习一些R语言相关的统计学技能了。

    今天的更新,我们会带您学习R的基本统计学技能:描述性统计分析。

    1. 将数据导入R

    1.1 准备好你的数据

    命名约定

    避免名称带有空格。

    好的列名:patient_age或patient.age。

    列名错误:patient age。

    避免使用带有特殊符号的名称:?,$,*,+,#,(,),-,/,},{,|,>,<等。只能使用下划线。

    避免以数字开头的变量名。请改用字母。

    好的列名称:patient_1st_meal或x1st_meal。

    列名错误:1st_male

    列名必须是唯一的。不允许重复的名称。

    R区分大小写。这意味着名称不同于名称或名称。

    避免数据中出现空白行。

    删除文件中的任何评论。

    用NA替换缺少的值(不可用)。

    如果你有包含日期的列,请使用四位数格式。

    格式良好:20160101。

    格式错误:01/01/16

    1.2 将数据保存在外部.txt标签或.csv文件中

    1.3 如下将数据导入R

    # 对于.txt文件

    my_data <- read.delim(file.choose())

    # 对于.csv文件

    my_data <- read.csv(file.choose())

    在这里,我们将使用名为iris的内置R数据集。

    # 导入R内自带的iris数据集

    library(datasets)

    data(iris)

    # 将数据存储在变量my_data中

    my_data <- iris

    1.3 检查数据

    你可以使用head()和tails()函数检查数据,这将分别显示数据的第一部分和最后一部分。

    # 显示前六行内容

    head(my_data, 6)

    输出结果如下

    Sepal.Length Sepal.Width Petal.Length Petal.Width Species

    1 5.1 3.5 1.4 0.2 setosa

    2 4.9 3.0 1.4 0.2 setosa

    3 4.7 3.2 1.3 0.2 setosa

    4 4.6 3.1 1.5 0.2 setosa

    5 5.0 3.6 1.4 0.2 setosa

    6 5.4 3.9 1.7 0.4 setosa

    2. 常用的描述性统计的R函数

    一些用于计算描述性统计量的R函数:

    ? R函数

    图片

    3. 单个组的描述性统计

    3.1 集中趋势的度量:均值,中位数,众数

    粗略地说,集中趋势衡量的是数据的“平均”或“中间”。最常用的衡量指标包括:

    集中趋势

    平均值:平均值。它对异常值很敏感。

    中位数:中间值。这是一个强有力的替代手段。

    众数:最频繁出现的值

    在R中

    函数mean()和median()可以分别计算平均值和中位数;

    # 计算平均值

    mean(my_data$Sepal.Length)

    [1] 5.843333

    # 计算中位数

    median(my_data$Sepal.Length)

    [1] 5.8

    3.2 可变性的度量

    可变性度量给出了数据“分散”的程度。

    范围

    极值:最小值和最大值

    范围:最大值减去最小值

    # 计算最小值

    min(my_data$Sepal.Length)

    [1] 4.3

    # 计算最大值

    max(my_data$Sepal.Length)

    [1] 7.9

    # 范围

    range(my_data$Sepal.Length)

    [1] 4.3 7.9

    四分位间距

    四分位数将数据均匀分为4部分。四分位数间距(IQR):对应于第一和第三四分位数之间的差异-有时被用作标准偏差的可靠替代方案。

    R功能:

    quantile(x, probs = seq(0, 1, 0.25))

    x:需要样本分位数的数值向量。

    probs:在[0,1]之间的概率数值向量。

    例:

    quantile(my_data$Sepal.Length)

    0% 25% 50% 75% 100%

    4.3 5.1 5.8 6.4 7.9

    # 计算十分位数(0.1,0.2,0.3,…,0.9):

    quantile(my_data$Sepal.Length, seq(0, 1, 0.1))

    # 计算四分位间距:

    IQR(my_data$Sepal.Length)

    [1] 1.3

    方差和标准差

    方差表示与均值的平均平方差之和。标准差是方差的平方根。它测量数据中数值与平均值的平均偏差。

    # 计算方差

    var(my_data$Sepal.Length)

    # 计算标准差

    sd(my_data$Sepal.Length)

    绝对中位数

    绝对中位数(Median absolute deviation,MAD):数据中值与中值的偏差,即先计算出数据与它们的中位数之间的残差(偏差),MAD就是这些偏差的绝对值的中位数。

    # 计算中位数

    median(my_data$Sepal.Length)

    # 计算绝对中位数

    mad(my_data$Sepal.Length)

    统计描述方式的选择

    范围。它不经常使用,因为它对异常值非常敏感。

    四分位间距。对于异常值,它非常强大。它多与中位数结合使用。

    方差。完全无法解释的,因为它不使用与数据相同的单位。除了用作数学工具外,很少被使用。

    标准偏差。方差的平方根。它以与数据相同的单位表示。在均值是集中趋势的分布(多指正态分布)的情况下,通常使用标准偏差。

    绝对中位数。对于具有离群值的数据,这是一种估算标准偏差的可靠方法。但是不经常使用。

    总而言之,四分位间距和标准差是用于报告数据变异性的两种最常用的度量。

    3.3 计算变量和整个数据框的整体摘要

    summary()函数

    函数summary()可用于显示一个变量或整个数据框的多个统计变量概况。

    单个变量的概况。

    返回六个值:平均值,中位数,第25和,75四分位数,最小值和最大值。

    summary(my_data$Sepal.Length)

    输出结果如下:

    Min. 1st Qu. Median Mean 3rd Qu. Max.

    4.300 5.100 5.800 5.843 6.400 7.900

    数据框概况。

    在这种情况下,函数summary()将自动应用于每列。结果的格式取决于列中包含的数据类型。例如:

    如果列是数字变量,则返回均值,中位数,最小值,最大值和四分位数。

    如果该列是一个因素变量(factor),则返回每个组中的观察数。

    summary(my_data, digits = 1)

    输出结果如下:

    Sepal.Length Sepal.Width Petal.Length Petal.Width Species

    Min. :4 Min. :2 Min. :1 Min. :0.1 setosa :50

    1st Qu.:5 1st Qu.:3 1st Qu.:2 1st Qu.:0.3 versicolor:50

    Median :6 Median :3 Median :4 Median :1.3 virginica :50

    Mean :6 Mean :3 Mean :4 Mean :1.2

    3rd Qu.:6 3rd Qu.:3 3rd Qu.:5 3rd Qu.:1.8

    Max. :8 Max. :4 Max. :7 Max. :2.5

    3.4 缺失值的情况

    Tips

    当数据包含缺失值时,即使仅缺少一个值,某些R函数也会返回错误或NA。

    例如,即使向量中仅丢失一个值,mean()函数也将返回NA。使用参数na.rm = TRUE可以避免这种情况,该参数告诉函数在计算之前删除所有NA。使用均值函数的示例如下:

    mean(my_data$Sepal.Length, na.rm = TRUE)

    好了,本期讲解就先到这里。在之后的更新中,我们会进一步为您介绍R的入门,以及常用生物统计方法和R实现。

    提前打个预告,接下来我们要正式开始学习R语言的统计学技能啦,下一期将会更新“R的描述性统计分析”。喜欢的同学们快快关注起来吧。

    转自:投必得学术

    如有侵权,请联系本站删除!


    浏览(404)
    点赞(0)
    收藏(0)
  • 上一篇:SCI小白必备!收好这款专注于句子改写的写作辅助工具

    下一篇:天才少年“小爱因斯坦”,年仅13岁,将攻读物理学博士!

  • 首页

  • 文章

  • 期刊

  • 帮助

  • 我的

版权所有 Copyright@2023    备案号:豫ICP备2021036211号