解码数据世界:统计学入门与应用指南

引言

统计学可以被定义为研究数据的科学,它涉及到数据的收集、分析、解释和呈现。其目标是从数据中提取有意义的信息,并使用这些信息来做出推断与决策。

统计学主要分别以下几个主要领域:

  1. 描述性统计:使用图表、图形和其他工具来总结和描述数据的特征。
  2. 推断性统计:使用概率论来从样本数据推断总体的特征,包括估计和假设检验。
  3. 回归分析:研究变量之间的关系,并预测一个变量基于其他变量的值。

统计学不仅是一门科学,也是一门语言,他使我们能够和数据对话。随着大数据和人工智能的发展,统计学的重要性将进一步增加,因为它是理解和利用这些技术的基础。

第一部分:基本概念

统计学中常见的基本概念包括:

总体:指研究对象的全部个体。

样本:指从总体中选取的一部分个体,通过对样本的研究,可以推断总体的特征。

变量:指可以在不同观测值之间变化的特征或属性,根据变量的类型可分别定性数据和定量数据。比如投骰子时,统计投中1到6每个数值的次数,得到的数据就是定量数据,如果投中1到3认为是“小”,投中4到6认为是“大”,此时得到的数据就是定性数据。

概率:指某个事件发生的可能性的度量,通常表示为0到1之间的数值。

随机变量:变量可以取多个值,因此在统计学中,经常会用到具有概率分布特性的变量,这就是随机变量。(随机变量,只有通过试验才能确认其数值。)随机变量可以是离散的(取有限或可数的值)或连续的(取无限且连续的值)。

置信区间:指的是一个参数可能值的一个范围区间,并指定了这个区间包含真实参数值的置信水平,比如(95%,99%)

常见的统计量包括:

最大值、最小值:最大值、最小值主要用来发现数据的边界,通过计算最大值与最小值的差值,还可以得到数据的极差值,这些都有助于对整体数据的范围有所了解。

平均值(μ) :平均值反映了一组数据集中趋势的量数,是指一组数据中的所有数据之和再除以这组数据的个数。

例题1:美术组有2名女生,2人平均8岁,3名男生, 3人平均13岁,美术组5人平均多少岁?

美术组2名女生一共:28=16岁,3名男生一共:313=39岁

美术组5人平均年龄 = 总年龄 ÷ 总份数 = (16+39) ÷ 5 = 11岁

例题2:五个数的平均数是8,若把其中的一个数改为20,平均数变为11,这个数原来是多少?

五个数总和 = 8 * 5 = 40

其中一个数改为20后总和 = 11 * 5 = 55

总和相差:15,因此原数 = 5

中位数:指按照顺序排列的一组数据中居于中间位置的数,如果总数是偶数时,正中间会有两个数据,把两个数据相加再除以2就是中位数。中位数同平均数一样,常用来反映一组数据集中趋势情况,与平均数不同的是,中位数不受数据集中极大或极小值的影响,中位数表示所观察的数据集中有一半的数大于它,另一半的数小于它。

例题:找出这组数据:23、29、20、32、23、21、33、25 的中位数。

首先排序:20、21、23、23、25、29、32、33

中位数:(23+25) ÷ 2 = 24

众数:指在一组数据中出现次数最多的数,众数同样是用来反映一组数据集中趋势的情况。

例题:找出这组数据:23、29、20、32、23、21、33、25 的众数。

23出现了2次,其他每一个数字都只出现1次,所以众数是23。

四分位间距:计算公式IQR = Q3 - Q1,Q3表示数据集中75%的数值都小于或等于它的值,Q1表示数据集中25%的数值都小于或等于它的值。二者相减就表示数据集中50%的数据分散程度。四分位间距对异常值相对不敏感,也就是说即使数据集两端存在极端值影响也不大。

例题:计算这组数据:100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115的四分位间距。

Q1:103,Q2:107.5(Q2就是中位数),Q3:112

IQR = Q3 - Q1 = 9

偏差:偏差表现的是在数据集中每个数据偏离平均值的程度,即每个数据与平均值的差值。

例题:计算这组数据:23、29、20、32、23、21、33、25每个数值的偏差

原数:23、29、20、34、23、21、33、25

平均值:26

偏差:-3、3、-6、8、-3、-5、7、-1

方差:用来衡量一组数据的离散程度,偏差是对比每一个数据与平均值的差异,方差是衡量整组数据与平均值的差异情况。

通过平方计算可以使差异更加明显,差异小的会变得更小,差异大的则会更大,比如偏差为0.1,平方后则为0.01,而偏差为10的,平方后则是100。

例题1:计算这组数据:23、29、20、32、23、21、33、25的方差
在这里插入图片描述

例题2:计算这组样本数据:23、29、20、32、23、21、33、25的样本方差

实际情况中,总体数据很难得到,大多数情况下都是以样本代替总体,而样本方差的计算公式如下:
在这里插入图片描述

标准差:方差和标准差都是测算离散趋势的常用指标,标准差是方差算法平方根,因为与变量的计算单位相同,数据看起来更为直观,因此更多时候会使用标准差来进行分析。

在这里插入图片描述

协方差:协方差是用于衡量两个变量的总体误差,方差表示的一个变量,而协方差表示的两个变量,通过观察两个变量的变化关系来分析其相关程度,一般可以分别:正相关、负相关、不相关。

相关性又可以通过计算相关系数r来表示,取值范围是-1~1。正相关程度越高时其值越接近1,反之则越接近-1

一般而言,根据r的取值,大致可以分为以下5种情况:

  • r <= -0.6 很强的负相关
  • 0.6 <= r <= -0.2 普通负相关
  • -0.2 <= r <= 0.2 不相关
  • 0.2 <=r <= 0.6 普通的正相关
  • r >= 0.6 很强的正相关

例题:根据如下表格,计算两个变量之间的关联程度。
在这里插入图片描述

第二部分:描述性统计

描述性统计是统计学中用于描述和展示数据集特征的一系列方法。它通常包括数据的收集、整理、分类和呈现,旨在提供对数据集的基本理解。其中图形化展示是描述性统计中非常重要的一部分,它可以帮助我们更直观地理解数据。常见的图形包括:条形图、折线图、饼图、直方图等等。

条形图:主要通过高度或长短来反映数据的多少。

饼图:可以更直观的反映各个数据部分构成的比例情况。

折线图:折线图通常用来表示随时间而变化的连续数据,反映数据在某段时间的变化趋势。

直方图:适用于展示定量数据的频率分布。

图表中的小陷阱

通过图形化能够让数据更为直观的反映出来,但也有小心其中的一些小“陷阱”。

1. 折线的波动

比如下面这张图,实际上是同一组数据集,只有由于两张折线图纵坐标一个是从0值开始的,一个是从970000开始的,就会让人看起来产生了不一样的波动效果。

2. 增长趋势

同样的伎俩,通过调整纵坐标的间距,就可以让蓝线和橘线的增长趋势截然相反。

3. 区间统计

通过调整统计区间,得到不一样的传达效果,左图是来自凤凰新闻,右图来自BBC。虽然两张地图都划了 5 个色块,但 BBC 将确诊病例大于 500 例的省份都赋予最严重的深红色,导致了当时确诊 529 例的重庆和确诊 51986 例的湖北是一样的颜色,很有误导性。而凤凰网的数据划分范围就合理的多,是以 10 的次方为分界线。
在这里插入图片描述

4. 非正常比例扩增

在这里插入图片描述

第三部分:推断性统计

推断性统计是统计学的一个重要分支,它允许我们使用样本数据来推断总体的特征。这种推断是通过估计总体参数和测试关于总体的假设来实现的。推断性统计主要包括两个部分:估计和假设检验。

估计

估计是指使用样本数据来推断总体参数(如总体平均值、总体比例或总体方差)的过程。在估计过程中,我们计算样本统计量(如样本平均值、样本比例或样本方差),并使用这些统计量作为总体参数的估计值。估计可以是点估计,也可以是区间估计。

  • 点估计:点估计是指用单个值(通常是样本统计量)来估计总体参数。如果我们想估计一个城市的上班族的平均月收入,我们可能会计算一个随机选择的样本的平均收入,并将其作为总体平均收入的估计。

    例如:有三个上班族,他们的月收入分别为:1万、2万、3万,于是我们就通过他们的月收入的平均值计算:(1+2+3)/ 3 = 2万,推断出所有上班族的月收入平均值为2万,2万是一个明确的数值(点),这样的估计方法就被称为点估计。

  • 区间估计:区间估计提供了一个包含总体参数可能值的区间,这个区间与置信水平(如95%)相关。我们可能会说,我们有95%的把握认为总体平均收入位于样本平均收入的一个特定区间内。

    例如:用区间估计的方式,最后我们得出的结论会是这样:有95%的情况,平均月收入在0.87万~3.13万之间。
    很明显,利用区间估计比点估计更可靠,因为区间估计的正确率是已知的。

区间估计原理

为什么区间估计可以仅凭一个样本,就能推断出总体的平均值和方差的置信区间,并说明其置信度呢?

基本步骤

  1. 收集样本数据:从总体中反复抽取多个样本,并计算样本的统计量,包括:样本的平均值、标准差等。
  2. 选择置信水平:确定你想要的置信水平,如:95%。
  3. 查找临界值:根据置信水平,查找适当的临界值,如果是正太分布,通过使用Z分布,对于其他情况,通常会使用到t分布。
  4. 构建置信区间:最后,根据标准差、临界值来构建置信区间。
  5. 置信区间计算公式:在这里插入图片描述

接下来我们可以举一个例子来说明,如果我们要估计一个公司员工的平均年收入,则可以通过如果几步求得。

在这里插入图片描述

接下来的例子还可以让我们通过样本比例来推断总体比例,假设随机调查某地100名30到40岁的男性得出样本的单身率为0.48,据此估计该地全体30到40岁男性单身率。

在这里插入图片描述

根据Z分布推断

Z分布称为标准正太分布,其均值为0,标准差为1,然后我们通过将原始数据转换为Z分数,最终得到原数数据在整体数据中的一个水平。

Z分数的计算公式

在这里插入图片描述

接下来我们举一个例子来说明,假设我们有一份学生的考试成绩数据集,均值为70分,标准差为10分。其中一个学生的考试成绩是85分。我们想知道85分大概处于什么样的水平?

在这里插入图片描述

我们再来举一个例子说明,假设某地高校的录取委员会希望录取所有考生中前5%的考生,假设本次考试中平均分数为500分,标准差为100分,那么起码要考到多少分,才能达到该高校的要求。

在这里插入图片描述

Z分布表

二项分布

在这里插入图片描述

**举个例子:假设有一个骰子,投掷10次,求恰好有3次投到6的概率?
在这里插入图片描述

假设检验

统计检验通常是用随机抽样获得的样本的分析结果,判断某个结论是否正确,是一种基于概率判断“某种想法或结论”是否正确的方法。

举个例子:我有一个骰子,首先我假设这骰子是合格的(即:每一面投出的概率是相同的),在此基础上我投出该骰子10次并发现了其中有8次都是偶数,我想如果它是一枚正常的骰子,投10次至少有8次都是偶数的概率能有多少?

根据二项式计算得出:

在这里插入图片描述
最后相加求出概率大约为:0.0546875,由于我认为投出这样的概率实在是太小了,因此拒绝这个骰子是合格的这个假设。

简单来说就是,如果发生了小概率事件,我不认为它是巧合,我想它一定是有问题的。当然,由于小概率事件一定会发生,所以也就避免不了造成一定的错误,在检验时通常有两类错误,一种是“原假设是正确的,却拒绝了原假设”,一种是“原假设是错误的,却接受了原假设”

不难看出,这两类错误是互补的关系,就像设置异常告警通知一样,要想减少漏报的情况,就会设置更为敏感的告警条件,但这同时也会带来更多的误报。反过来,要想减少误报的情况,就需要设置相对不敏感的告警条件,但这就更容导致漏报的情况产生。

由于,0.0546875是放弃我假设这骰子是合格的评价尺度,所以又被称为风险率。 同时发生小概率事件又是必然的,所以作为小概率事件的判断基准,0.0546875又被称为显著性水平。

所以,如果我们将显著性水平调整到0.01,那么就会接收偶数出现8次这个小概率事件,认为骰子是合格的,只有当出现了9次及以上为偶数,才会拒绝原假设。

第四部分:回归分析

回归分析是统计学中一种强大的工具,用于研究变量之间的关系,并预测或估计一个变量基于其他变量的值。它可以用于估计变量之间的关系强度、方向和形式,并且可以用于预测和控制。人们习惯于通过这样的研究结果来描述复杂事物,解决复杂的问题

一元回归分析

一元回归分析指的是通过建立一个线性模型,然后由一个变量预测另一个变量的情况。

其数学表达式为:
在这里插入图片描述

多元回归分析

多元回归分析实际上同一元回归分析的基本思想是相同的,只有由一个变量的的预测,变成了多个变量的预测,可以处理更为复杂的变量间的关系。

同样通过Excel表格可以帮助我们进行分析。
在这里插入图片描述

总结

最后,希望本篇文章能为读者打开学习统计学的大门。通过掌握统计学的基本原理和技术,你将能够更好地理解和分析数据,从而在业务分析、商业决策以及日常生活中做出更加明智的选择。记住,统计学不仅仅是关于数字,更是关于洞察力和解释的艺术。随着不断学习和实践,你将能够更有效地利用统计学来解决各种问题,并发现数据背后蕴藏的真谛。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/568284.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

计算二维主应力的前端界面

<!DOCTYPE html> <html> <head> <title>二维主应力</title> </head> <body> <h2>计算二维主应力</h2> <form> <label for"input1">σ_1(Mpa):</label> <input type"t…

【数据结构】stack queue —— 栈和队列

前言 这阵子一直在学数据结构&#xff0c;知识点消化地有点慢导致博客一直没写&#xff0c;现在总算是有时间歇下来补补前面落下的博客了。从现在起恢复周更&#xff0c;努努力一周两篇也不是梦……闲话少说&#xff0c;今天就让我们一起来认识栈和队列 1. 栈的介绍和使用 栈…

《HCIP-openEuler实验指导手册》1.4 Apache MPM工作模式调整

MPM介绍 二、配置步骤 查看MPM当前工作模式 方法一&#xff1a; httpd -M | grep mpm方法二&#xff1a; 浏览器访问&#xff1a;http://IP:端口/server-status 方法三&#xff1a; cat /etc/httpd/conf.modules.d/00-mpm.conf查看 LoadModule mpm_event_module modules/mo…

C语言 字符类型

下面 我们来说字符类型 我们来看这个 保险单 金额 和 总额 都可以用数字类型 而性别则需要字符型 字符数据的存储 – ASCI码 字符类型 char 就是专为存储字符(如字母&#xff0c;标点和数字)而设计的类型。 使用单引号包含单个字符或转义字符去表示一个 char 类型的常量。 …

371D - Vessels

思路&#xff1a;用并查集维护&#xff0c;如果当前容器没有满&#xff0c;就指向自己&#xff0c;否则指向下一个容器。 这样就可以快速 find 到下一个没有满的容器&#xff0c;从而模拟询问 1。 代码&#xff1a; void solve(){int n;cin >> n;vector<int>p(n …

JRT1.5发布演示

JRT1.5演示视频 这是一次思想的解放&#xff0c;这是一次自我的挑战&#xff0c;这是一次涅槃重生。信创、安可、Linux、麒麟、UOS、King、PGSQL、ARM、Java围绕在我周围。JRT在DotNetCore的基础上完成了重生。对我而言&#xff0c;它不仅仅是一套框架那么简单&#xff1b;它更…

探索嵌入式系统:快速入门指南概览

✨✨ 欢迎大家来访Srlua的博文&#xff08;づ&#xffe3;3&#xffe3;&#xff09;づ╭❤&#xff5e;✨✨ &#x1f31f;&#x1f31f; 欢迎各位亲爱的读者&#xff0c;感谢你们抽出宝贵的时间来阅读我的文章。 我是Srlua小谢&#xff0c;在这里我会分享我的知识和经验。&am…

【数据结构(邓俊辉)学习笔记】向量03——常规向量

文章目录 0.概述1.元素访问2.置乱器3.判等器与比较器4.无序查找4.1 判等器4.2 顺序查找4.3 实现4.4 复杂度 5. 插入5.1 算法实现5.2 复杂度分析 6. 删除6.1 区间删除6.2 单元删除6.3 复杂度 7. 唯一化7.1 实现7.2 正确性7.3 复杂度 8. 遍历8.1 实现8.2 复杂度 9. 总结 0.概述 …

CUDA线程管理

核函数在主机端启动时&#xff0c;执行会转移到设备上&#xff0c;并且将控制权转移回主机。当核函数在GPU上运行时&#xff0c;主机可以运行其他函数。因此&#xff0c;主机与核函数是异步的。 此时&#xff0c;设备端也就是GPU上会产生大量的线程&#xff0c;并且每个线程都…

手势估计 | 使用TensorRT实现的实时手势估计+手势分类

项目应用场景 面向手势识别场景&#xff0c;项目具有实时手势识别 手势分类功能&#xff0c;采用 TensorRT 进行 GPU 加速推理&#xff0c;可通过手势识别进行远程控制。 项目效果 项目细节 > 具体参见项目 README.md (1) 安装依赖 git clone https://github.com/NVIDIA-…

初入单元测试

单元测试&#xff1a;针对最小的功能单元(方法)&#xff0c;编写测试代码对其进行正确性测试 Junit可以用来对方法进行测试&#xff0c;虽然是有第三方公司开发&#xff0c;但是很多开发工具已经集成了&#xff0c;如IDEA。 Junit 优点&#xff1a;可以灵活的编写测试代码&am…

2024年Java接单平台强力推荐!各个都知名!

Java这几年真卷飞了&#xff0c;一点都不夸张。因此&#xff0c;很多程序员朋友都已经试着转方向、换赛道了。试着接单、找私活就是一大途径。当然&#xff0c;特别是有技术、又有相对空闲时间的朋友&#xff0c;更值得一试。既是增加收入的捷径&#xff0c;又可以提升自我——…

SQL Server 中语句显示红色波浪线,提示对象/列名无效解决方法(无其他任何显式错误的情况)

拼写 名称等都没有出现任何错误时&#xff0c;依旧报错&#xff1a;对象/列名无效 解决步骤&#xff1a; 工具-选项-文本编辑器-Transact-SQL-IntelliSense重新勾选 启用 IntelliSense或者将 最大脚本大小改为 无限制 当然 工具卡了也可能会失效&#xff0c;进行 刷新 保存 或…

智慧安防视频监控EasyCVR视频汇聚平台无法自动播放视频的原因排查与解决

国标GB28181协议EasyCVR安防视频监控平台可以提供实时远程视频监控、视频录像、录像回放与存储、告警、语音对讲、云台控制、平台级联、磁盘阵列存储、视频集中存储、云存储等丰富的视频能力&#xff0c;平台支持7*24小时实时高清视频监控&#xff0c;能同时播放多路监控视频流…

开源大模型Llama3,堪比GPT-4。手把手本地安装,纯小白可操作,不需要编程经验,国内可下载,可视化使用。

最近最劲爆科技动态&#xff0c;Meta开源Llama3模型&#xff0c;最强开源模型。 Llama3发布后&#xff0c;扎克伯格亲自给媒体表示“要超越所有人&#xff0c;做最领先AI”。 吴恩达等一众大佬表示祝贺。 在线体验地址&#xff1a;https://www.meta.ai/ 不过国内在线体验基本…

【服务器部署篇】Linux下Ansible安装和配置

作者介绍&#xff1a;本人笔名姑苏老陈&#xff0c;从事JAVA开发工作十多年了&#xff0c;带过刚毕业的实习生&#xff0c;也带过技术团队。最近有个朋友的表弟&#xff0c;马上要大学毕业了&#xff0c;想从事JAVA开发工作&#xff0c;但不知道从何处入手。于是&#xff0c;产…

MySQL的root用户无法远程连接

默认root用户只允许本地连接&#xff0c;所以需要修改mysql库中user表中名为root的用户的host为“%” select Host,User from user;UPDATE mysql.user SET host % WHERE user root; FLUSH PRIVILEGES;

一文整理完MySQL关系型数据库相关知识

MySQL关系型数据库 1. 介绍1.1 MySQL 2. 安装3. SQL语句4. SQL分类5. DDL5.1 库的DDL5.2 表、列的DDL 6. DML6.1 添加数据6.2 修改数据6.3 删除数据 7. DQL7.1 基础查询7.2 条件查询7.3 排序查询7.4 聚合函数7.5 分组查询7.6 分页查询 8. 约束8.1 约束分类 9. 多表查询9.1 内连…

实现Spring底层机制(三)

文章目录 阶段4—实现BeanPostProcessor机制1.文件目录2.初始化方法实现1.编写初始化接口InitializingBean.java2.MonsterService.java实现初始化接口3.容器中的createBean方法增加初始化逻辑&#xff0c;判断对象类型是否是InitializingBean的子类型&#xff0c;如果是&#x…

Vue+OpenLayers7入门到实战,OpenLayers加载GeoJson数据并叠加GeoJson中的要素到地图上

返回《Vue+OpenLayers7》专栏目录:Vue+OpenLayers7入门到实战 前言 本章介绍如何使用OpenLayers7在地图上加载GeoJson数据并叠加GeoJson中的要素到OpenLayers矢量图层上。 GeoJson数据格式可以参考博主另一篇文章《GIS开发入门,GeoJSON是什么?GeoJSON格式标准介绍》,那么…
最新文章