地质统计学在孩子择校中的应用
近段时间阅读了莫斯科物理技术学院的《基于地质统计学的地质建模》,内容通俗易懂。但是对于非石油人士而言,问题的理解还是挺困难的。地质统计学主要涉及到地球物理参数的空间插值算法,即在已知的油井的位置约束下求取位置空间位置的地球物理参数。这里的地球物理参数包括:孔隙度、渗透率和饱和度等物理参数。
为了更好的理解地质统计学中的“期望”、“方差”、“变差函数”、“克里金插值”等概念,我们以孩子的择校为例进行讲解说明。
假设:你带着孩子从一个城市来到东营,孩子需要做插班生,令你头疼的是孩子的数学成绩不好,经过协商只有两个班级对你开放,为了让孩子的数学成绩尽可能提高,你能控制两个变量:
首先我们要选择班级。按照常规的理论应该是选择数学成绩好的班级来插班更有利于成绩的提高。现在有一个问题怎么判断班级学习成绩的好坏呢。这里大家会说很简单啊,哪个班级的平均分高就去哪个班级。很对,这个平均分在统计学上说法就是期望,也就是哪个班级的数学成绩的期望越高就应该插入哪个班级。
现在遇到第二个问题,班级学生数学成绩的稳定程度是否需要考虑呢?平均分很好的展示了你家孩子可能的分数,但是如果你选择一个成绩变化大的班级,很可能拿到平均分的只是“别人家的孩子”,而你的孩子可能是“被平均”(成绩可能会远低于平均分,当然也有可能远高于平均分),那这个成绩变化的衡量参数是什么呢?就是统计学中的方差表示为学生成绩偏离平均分的平方的平均值(计算过程分三步:1,计算平均分2,每个学生的成绩减去平均分后取平方简称c【有正,有负】3,将c取平均值)。因此我们看到方差也是择校的一个重要指标,如果两个班级平均分一样的话,如果是保守型的家长会选择方差小的班级,最好是方差等于0,这样孩子的成绩就极有可能是平均分,如果是喜欢刺激的家长可能会选择方差大的学校。
为了简化问题,我们假设两个班级的平均分和方差都是一样的。我们应该怎么选择班级?现在我们回想一下,我们不仅可以选择班级,而且可以 选择座位啊!按照“近朱者赤近墨者黑”原理,应该尽量离学习好的学生的座位越好,这里就包含一个概念就是“越近越好”,但是我们应该怎么衡量“多近才叫近”,因此我们需要刻画两个学生的成绩的差与他们距离的关系。有一个相似称呼在地质统计学中叫做“变差函数”,具体的计算方法可以包括三步:
现在我们终于描述出了每一个学生作用于其他学生的程度,随着距离的增大分数差逐渐增大,当距离大到一定程度,就会稳定下来不会产生作用。
现在我们再引入一个约束条件,就是“座位不是你想选,想选就能选”。你需要用钱来购买优势的座位,这样就会存在一个问题,你口袋里的钱是一定的,如果你能根据已知的学生的成绩和位置推断出教室里面的不同位置的成绩分数,然后对比座位的“开价”你就能够方便的为自己决策了。如果我们能够将“学生成绩与距离”的变化趋势纳入到我们插值过程中,我们得到接结果应该会更合理。这一种插值方法在地质统计学中就称为克里金插值算法。
克里金插值算法有很多变种其中有一种就是同位协克里金插值算法,方法应用的条件就是,对于班级成绩我知道了该班级所有位置的物理成绩时,应该怎样进行插值呢,现在就需要利用协克里金插值算法将物理成绩座位约束条件纳入进来。
很多家长认为,我有了“克里金插值”算法就可以计算出所有座位的数学成绩了,但是答案是“不行!!!”为啥我们考虑一下,当我们选择的座位远离已知成绩的座位太大的时候,我们预测的成绩将会无限接近于班级的平均分。这样的预测结果显然是违背常识的,我们再仔细分析一下违反了哪些常识?“平均分”没有问题!方差有问题了!影响力指数有问题了!
那我们怎么得到一个更为真实的班级成绩呢?现在就用到地质统计学中的随机模拟。我们再重新回到克里金插值算法,克里金插值算法首先可以推算出未知座位处的数学成绩,同时可以得到这个成绩的可信程度,具体的信息就是你这个位置的分数是80分,更准确的说是70-90分的概率是95%。我们分析一下边缘的分数的“平均化问题”,主要原因是边缘座位没有已知的控制成绩,因此我们能不能人为的加一些控制点?答案是可以的!那怎么加呢?随机添加!随机主要体现在两个方面,首先是位置随机,我计算任意一个不知道分数的座位的成绩和置信区间,然后再该置信区间按照概率选择一个数学成绩,然后将该位置的数学成绩最为已知成绩加入到下一次的随机计算中,只到所有的座位的分数计算出来。
最终我们可以推测出每个位置处的数学成绩,该成绩与真实 成绩平均分一致、方差相似以及距离影响指数一致。基于预测的学习成绩,可以很好的解决孩子的择校问题。