经验法则

实际上,每一项数据都在均值的三个标准差范围内

什么是经验法则?

在数学中,经验法则说,在一个正常的数据集中,几乎所有数据都在三个范围内标准差的意思。平均值是集合中所有数字的平均值。

经验规则也被称为三西格玛规则或68-95-99.7规则,因为:

  • 在距离平均值的第一个标准偏差内,68%的所有数据都存在
  • 95%的数据都在两个标准差范围内
  • 几乎所有的数据——99.7%——都在三个标准偏差范围内(剩下的0.3%用于解释异常值,这些异常值几乎存在于每个数据集中)。

经验法则

正态分布

经验法则之所以出现,是因为统计学家不断重复出现相同形状的分布曲线。经验法则适用于正态分布。在正态分布中,几乎所有数据都在均值的三个标准差范围内。的的意思是模式和中值都是相等的。

  • 平均值是数据集中所有数字的平均值。
  • 模式是数据集中重复频率最高的数字。
  • 中位数是集合中最大值和最小值之间的差值。

这意味着均值,众数,和中位数应该都位于数据集的中心。数据的一半应该位于集合的较高端,另一半位于集合的较低端。

标准偏差的确定

经验法则对于在数据集中预测结果特别有用。首先,必须计算标准差。公式如下:

标准差-公式

上面这个复杂的公式可以通过以下方式分解:

  1. 确定数据集的平均值,即数据集的总数除以数字的数量。
  2. 对于集合中的每个数字,减去平均值,然后平方得到的数字。
  3. 使用平方值,确定每一个的平均值。
  4. 求出第3步中计算的均值的平方根。

这是正态分布的三个主要百分比之间的标准偏差,集合中的大多数数据应该在这一范围内,但不包括较小的百分比离群值

使用经验法则

如上所述,经验规则对于在数据集中预测结果特别有用。从统计学上讲,一旦确定了标准偏差,数据集就可以很容易地服从经验规则,显示出数据片段在分布中的位置。

预测是可能的,因为即使不知道所有的数据细节,也可以根据68%、95%和99.7%指示的所有数据应该停留的位置,预测数据在集合中的位置。

在大多数情况下,当不是所有的数据都可用时,经验规则主要用于帮助确定结果。它让统计学家——或那些研究数据的人——能够洞察到一旦所有数据都可用,数据会落在哪里。经验法则还有助于测试数据集的正常程度。如果数据不符合经验规律,那么它就不是正态分布,必须进行相应的计算。

相关阅读

为了继续学习和促进你的职业发展,以下额外的CFI资源将会很有用:

'的搜索结果为0