0
点赞
收藏
分享

微信扫一扫

白话空间统计二十九:空间插值(三)


上一篇文章发出来之后,M姐拧这我耳朵教育了我半小时:

 

白话空间统计二十九:空间插值(三)_插值

白话空间统计二十九:空间插值(三)_数据_02

 

这个问题,实际上在空间分析(统计)和空间计量(经济)学两个领域,早就打得不可开交了……空间分析里面,特别是作为空间分析工具,本身是不考虑用于运算的数据是否合理,也就是你扔什么数据进去,我就给你算什么结果出来。

 

而空间计量学里面,哪些指标可以用于进行分析,是需要有严格理论基础的。空间分析(统计)讲究的是指标结果,不考虑指标选取,而空间计量经济学的指标选取是具有导向的。也就是说空间计量经济学是所谓理论驱动,政策导向的学科。

 

白话空间统计二十九:空间插值(三)_空间分析_03

 

 

 既然已经聊到这个问题了,那么我们今天先来说说,什么样的数据可以用于插值。

 

首先,从插值的目的说起。

 

插值的目的并非生成新的数据,它的核心目的是用于补全未观测到的数据。

 

画重点——”补全

 

也就是说,你插值出来的结果,是这个区域本身应该有的结果,而不是无中生有的结果。

 

比如降雨、气温、空气质量这种数据,你的观测站记录的数据,只是真实的数据的一小部分,其他的区域,并非没有数据,而是没有被观测到,它们是客观存在的。

 

这是插值的第一核心要务,并非生成新的数据,而是推算以补全没有被观测或者没有被记录到的数据。

 

白话空间统计二十九:空间插值(三)_插值_04

其次,从插值的结果说起。

 

插值的结果,是记录有观测数据的连续栅格曲面

 

画重点——”连续

 

也就是说,它的结果必然是连续的,而且不会出现空缺。

 

插值生成的结果会铺满整个研究区域,每个栅格都会具有一个独立的数值,这个数值代表的是这个区域里面的被预测出来的结果:

 

白话空间统计二十九:空间插值(三)_数据_05

 

上面M姐说到的用人口数据做插值,实际上就违背了上面两个规则,如果用人口数据做插值,得到结果可能是这样的:

 

白话空间统计二十九:空间插值(三)_数据_06

 

人口采样,代表是一个区域范围,其他区间不代表可以通过这个点上面的值进行预测……如果要强行预测,把数值都填写进去之后,整个区间被完全覆盖,那么数值的整体可信度自然就比较尴尬了。

 

那么下面我们来总结一下,哪些数据不能用于插值呢?

 

首先,累积聚合类的统计数据是不能用于插值的,比如人口采样数据,又比如什么车辆数据采样(我见过用道路车辆数据来插值预测整个城市交通情况的……我要是他的导师:

白话空间统计二十九:空间插值(三)_空间分析_07

白话空间统计二十九:空间插值(三)_数据_08

 

还有诸如案件数量、供水能力、投资金额、动植物数量……等等这些,一句话,你的采样值如果是通过聚合得来的数据,统统能用来插值。

 

其次,结果为表达为离散的数据,也是不能进行插值的,比如平均身高,或者平均收入这种,理论上,平均身高和平均体重,可以通过插值来进行预测,也不会出现最终累积,但是这种有样本类型的数据,只能分布在有人类活动区域才有效,城市内可以,但是荒郊野外呢?长江大河上?海洋荒岛上?这种数据,用插值的时候,需要特别注意,可以认为是有限定条件的来使用插值。

 

而可以用于插值的数据有哪些呢?

 

首先,就是自然科学类的数据(原则还是一样:非聚合值)——自然界客观存在,且不以人为意志所变更的数据,比如气温气压、降雨降水、高程、空气质量、土壤化合物含量、地下矿产储量(地统计学的原始研究对象)等等。

 

其次是与自然科学有关的人类活动观测数据,比如空气污染,比如水体污染,但是这些数据在使用的时候,会有限定条件:比如河流污染源插值,你的污染源还能向河流上游蔓延么?

 

第三,一些具有区域化特征的人文社科数据,也可以用于插值,比如在城市范围内,用采样区域的房价数据,来预测整个城市的房价分布。但是这样的预测,也需要注意各种限定条件。

 

所以,插值分析虽然是空间分析的helloworld级应用,但是不是万能的,使用的时候一定要多加注意。

 

待续未完。

举报

相关推荐

0 条评论