文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

R语言-如何实现卡方检验

2024-04-02 19:55

关注

卡方检验

在数据统计中,卡方检验是一种很重要的方法。

通常卡方检验的应用主要为:

1、 卡方拟合优度检验

2、卡方独立性检验

本文主要通过使用自己编程的方法实现相关检验。

卡方拟合优度检验

理论:

1、我们先做出0假设:H0:总体服从假定的理论分布

2、我们再构造一个统计量:

3、当n充分大时

4、我们得到该拒绝域

代码


#Chi_square Goodness Of Fit Test
#函数说明:
#n为所得样本数据;p为理论概率
#alpha为置信水平,df为自由度
cgoft <- function(n,p){
  N <- length(n)#N为样本总容量
  sumn <- sum(n)
  XX <- 0
  for (i in 1:N) {
    XX <- XX +(n[i]-sumn*p[i])^2/(sumn*p[i])
    print(XX)
  }
  return(XX)
}
c <- qchisq(1-aplha,df)

卡方独立性检验

理论:

1、我们先做出0假设:H0:二者没有相关关系

2、我们再构造一个统计量:

3、当n充分大时

4、我们得到该拒绝域

代码


#Chi_square Independence Test
#函数说明:
#n为样本数据,表格按行排列,写成向量形式;row为表格行数
#alpha为置信水平,df为自由度
cit <- function(n,row){
  N <- length(n)
  sumn <- sum(n)
  n1 <- matrix(n,nrow=row,byrow = TRUE)
  column <- N/row
  pi <- c()
  for (i in 1:row) {
    pi[i] <- sum(n1[i,])/sumn
  }
  pj <- c()
  for (j in 1:column) {
    pj[j] <- sum(n1[,j])/sumn
  }
  XX <- 0
  print(pj)
  for (i in 1:row) {
    for (j in 1:column) {
      XX <- XX + (n1[i,j]-sumn*pi[i]*pj[j])^2/(sumn*pi[i]*pj[j])
    }
  }
  return(XX)
}
c <- qchisq(1-aplha,df)

补充:R语言实施皮尔森卡方检验

说明

检查两个数据集中的类别分量是否不同,在统计中会碰到离散型数据与计数数据,比如性别分男、女,某个问题的态度分为赞成、反对,成绩可分优良差,能力可分高中低。对这类数据的统计处理的假设检验一般用计数数据的统计方法进行非参数检验。

卡方检验主要用于两个方面,一是对总体分布进行拟合性检验,检验观查次数是否与某种理论次数相一致。

二是独立性检验,用于检验两组或者多组资料相互关联还是彼此独立。

操作示例(独立性检验)


#mtcars$am有0,1两个因素表示行,mtcars$gear 有3,4,5三个因素表示列
library(stats)
data("mtcars)
ftable = table(mtcars$am,mtcars$gear)
ftable = table(mtcars$am,mtcars$gear)
ftable = table(mtcars$am,mtcars$gear)
> ftable
     3  4  5
  0 15  4  0
  1  0  8  5

#绘制列联表的马赛克图
mosaicplot(ftable,main ="number of forward gears within automatic and manual cars",color = TRUE )

对列联表执行卡方检验,以检测自动档与手动档汽车前驱的齿轮数目是否相同:


chisq.test(ftable)
    Pearson's Chi-squared test
data:  ftable
X-squared = 20.945, df = 2, p-value = 2.831e-05
Warning message:
In chisq.test(ftable) : Chi-squared近似算法有可能不准

总结

卡方检验用于发现两个类别变量之间是否存在某种关联,最适用于数组中非成组信息的检验。使用条件:1.数据都为类别数据2.变量包括两个或者两个以上独立数据组。

H0:变量A与变量B相互独立(gear数目相同)

H1:变量A与变量B相互不独(gear数目不相同)

由图知:自动档的gear要小于手动档的gear.p-value<0.05,拒绝H0,接收H1.

样例输出了一个警告信息,此次卡方检验的结果可能不正确,这是因为列联表的个数小于5。

以上为个人经验,希望能给大家一个参考,也希望大家多多支持编程网。如有错误或未考虑完全的地方,望不吝赐教。

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     807人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     351人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     314人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     433人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     221人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯