蒙特卡罗思想

蒙特卡罗(Monte Carlo)模拟名字源自摩纳哥的赌城-蒙特卡洛,20 世纪 40 年代,由 John von Neumann,Stanislaw Ulam 和 Nicholas Metropolis 在曼哈顿计划中,为模拟中子扩散发展出的一种统计方法。 字如其名,蒙特卡洛方法本质上是跟赌博一样利用随机特性获得具有统计意义的结果。通过一个简单的例子,就能让你理解蒙卡的思想精髓:

如果 (x,y) 是独立地从 0 到 1 之间均匀分布抽样出的一系列的数对,那么这些随机的位置坐标 (x,y) 落在 1 为半径圆弧内的概率应该是:四分之一圆的面积/整个正方形的面积。

而因为 (x,y) 是 0 到 1 的均匀分布,所以这个概率当抽样足够多的时候就等于圆内的点数除以总共点数。这样一来,只要采样足够多,就可以得到无限趋近于 π 的值。

这种模拟方法称作舍选法(取舍法)。

蒙特卡洛方法还有很多其他的形式,如直接抽样法(反函数法):http://hepg.sdu.edu.cn/zhangxueyao/Education/MonteCarlo/2013/ch03/MonteCarlo-ch03-03.pdf

中心极限定理和大数定律

统计就是能够从少量数据中得出结论的方法。例如我们只需要对 1000 个美国人进行电话调查,就能预测美国总统大选的得票数。有如此自信得到可靠结论源自:中心极限定理和大数定律。

中心极限定理:样本的平均值约等于总体的平均值。即不管总体是什么分布,任意一个样本平均值都会围绕在整体平均值周围,并且呈正态分布。

大数定律:如果统计数据足够大,那么事物出现的频率就能无限接近期望值。

小数定律:如果统计数据很少,那么事件就表现为各种极端情况,而这些情况都是偶然事件,跟它的期望值一点关系都没有。

正态分布

正态分布(Normal distribution)是一个非常常见的连续概率分布。正态分布在统计学上十分重要,经常用在自然和社会科学来代表一个不明的随机变量。

若随机变量X服从一个平均数μ、标准差为σ的正态分布,则记为:

X ∼ N(μ,σ2)

则其概率密度函数为

$$ f(x)=\frac{1}{\sigma \sqrt{2 \pi}} e^{-\frac{(x-\mu)^2}{2 \sigma^2}} $$

正态分布的数学期望值或期望值μ,决定分布的位置。其方差σ2的平方根或标准差σ决定了分布的幅度。

期望、标准差、标准误和方差