医学统计学之概率分布的概念

统计师
关注：2.77W次

众所周知，统计分析可以分为描述性统计分析 (descriptive statistics)和推断性统计分析 (inferential statistics)。下面是yjbys小编为大家带来的关于医学统计学的知识，欢迎阅读。

对于推断性统计分析来说，要抓住其本质，就必须对其背后最根本的概率分布(probability distribution)有个清楚的理解。概率分布是很多统计推断方法的基础，最典型的例子就是正态分布，很多统计检验方法都会涉及到正态分布。而有些统计检验则是直接建立在统计量值服从某种概率分布的基础上的，比如t检验的t值服从t分布，方差分析的F值服从F分布，卡方检验的卡方值服从卡方分布等。因此在展开推断性统计分析或统计检验之前，先和大家一起熟悉一下概率分布。

首先简单介绍一下几个常见的概念：

　　1、Random variable (随机变量)：

假设我们掷硬币，那么出现的结果有两种：正面或反面。我们换个角度，把正面和反面的结果与数字联系起来，将结果数量化，比如我们掷10次硬币，出现5正5反。这时我们就把掷硬币的结果 (正或反)与出现正或反结果的数字联系起来了。而随机变量就是一种function，它把每一种结果都与一个唯一的数值联系起来。对于随机变量的定义，版本有很多，我们来看一下其中的一个定义：一个随机试验的可能结果(称为基本事件)的全体组成一个基本空间Ω 。随机变量X是定义在基本空间Ω上的取值为实数的函数，即基本空间Ω中每一个点，也就是每个基本事件都有实轴上的点与之对应。

随机变量一般可分为离散型随机变量(discrete)和连续性随机变量(continuous)。

所谓离散型随机变量是指随机变量X的取值是有限个或可列无限个。比如我们掷硬币，我们定义随机变量是正面的次数，那么我们掷10次，那么X的取值只能是0,1,2,3,4,5,6,7,8,9,10，这时我们就称X是个离散型随机变量。

所谓连续性随机变是指X可以取某一区间的所有值。比如，我们定义X为收缩压血压值，理论上来说X可以取任意非负值，此时X就是个连续性随机变量。

了解了什么是随机变量，接下来我们开始看一下什么是概率分布。。

　　2. 概率分布(probability distribution)

The probability distribution associated with the random variable X describes the likelihood of obtaining certain values or ranges of values of the random variable

概率分布是描述随机变量取某个特定的值或取某一区间范围内值的概率。

对应着概率分布的定义，取某个特定的值或取某一区间内的值，或者说对应着离散型变量或连续性变量，概率分布可以分为离散型概率分布和连续性概率分布。

常见的离散型概率分布有二项分布(Binomial Distribution)和泊松分布(Poission Distribution )。

常见的连续性概率分布，我们一般称为Probability Density Function，包括正态分布(Normal Distribution)、t分布 (t Distribution)、卡方分布 (Chi-Square Distribution)、F分布(F Distribution)等。

一提到概率分布，我们一般第一想到的便是正态分布，有人说没有正态分布就没有统计，由此正态分布的普遍性和重要性不言而喻。

那么为什么正态分布如此普遍和重要呢?

首先，很多情况下，自然界很多东西都是自然呈正态分布的，而更重要的原因在于中心极限定理(central limit theorem)的应用。所谓中心极限定理是指当样本量足够大时，无论其总体分布如何，其样本均数趋于正态分布。中心极限定理为正态分布的普遍应用提供了最为坚实的'理论基础。而对于上则几百例病人的临床试验来说，正态分布更是找到了其适合生长的最好土壤。另外，我们常用的一些统计方法都是依赖于正态分布的：

(1) 一些统计方法如t检验和方差分析，其应用的前提条件就是要求数据服从正态分布

(2) 而对于一些统计模型来说，比如线性模型，往往要求其残差服从正态分布。

关于正态分布在统计模型中的应用，下边有一段论述很有意思，小胖摘抄下来供大家参考：

正态分布对统计学家从某种角度来说是“垃圾的分布”。

当向一个统计学家问什么是正态分布时，他会回答：当一个变量有多个、解释不清的因素决定，而且每个因素的作用都不强，于是变量就呈现正态分布。

一个随机变量中有两种成分，一是非随机成分，一是随机成分分。建模把非随机部分用模型(函数形式)来表达，纯随机的成分就成了残差。

回归不论线性与否，残差是正态，说明模型不能表达的成分确实是“垃圾”，不能再处理的。

但是，我们把数据馈入模型，结果发现残差非正态(或并非白噪音)，怎么办，最理想的办法是修改模型，使其符合正态假设。回归其实就是在杂乱的信息中，把有规律的信息用模型表达出来，而无规律的白噪声滤掉。

标签：概率分布统计学医学