上一篇文章发出来之后,M姐拧这我耳朵教育了我半小时:
这个问题,实际上在空间分析(统计)和空间计量(经济)学两个领域,早就打得不可开交了……空间分析里面,特别是作为空间分析工具,本身是不考虑用于运算的数据是否合理,也就是你扔什么数据进去,我就给你算什么结果出来。
而空间计量学里面,哪些指标可以用于进行分析,是需要有严格理论基础的。空间分析(统计)讲究的是指标结果,不考虑指标选取,而空间计量经济学的指标选取是具有导向的。也就是说空间计量经济学是所谓理论驱动,政策导向的学科。
既然已经聊到这个问题了,那么我们今天先来说说,什么样的数据可以用于插值。
首先,从插值的目的说起。
插值的目的并非生成新的数据,它的核心目的是用于补全未观测到的数据。
画重点——”补全“
也就是说,你插值出来的结果,是这个区域本身应该有的结果,而不是无中生有的结果。
比如降雨、气温、空气质量这种数据,你的观测站记录的数据,只是真实的数据的一小部分,其他的区域,并非没有数据,而是没有被观测到,它们是客观存在的。
这是插值的第一核心要务,并非生成新的数据,而是推算以补全没有被观测或者没有被记录到的数据。
其次,从插值的结果说起。
插值的结果,是记录有观测数据的连续栅格曲面
画重点——”连续“
也就是说,它的结果必然是连续的,而且不会出现空缺。
插值生成的结果会铺满整个研究区域,每个栅格都会具有一个独立的数值,这个数值代表的是这个区域里面的被预测出来的结果:
上面M姐说到的用人口数据做插值,实际上就违背了上面两个规则,如果用人口数据做插值,得到结果可能是这样的:
人口采样,代表是一个区域范围,其他区间不代表可以通过这个点上面的值进行预测……如果要强行预测,把数值都填写进去之后,整个区间被完全覆盖,那么数值的整体可信度自然就比较尴尬了。
那么下面我们来总结一下,哪些数据不能用于插值呢?
首先,累积聚合类的统计数据是不能用于插值的,比如人口采样数据,又比如什么车辆数据采样(我见过用道路车辆数据来插值预测整个城市交通情况的……我要是他的导师:
还有诸如案件数量、供水能力、投资金额、动植物数量……等等这些,一句话,你的采样值如果是通过聚合得来的数据,统统不能用来插值。
其次,结果为表达为离散的数据,也是不能进行插值的,比如平均身高,或者平均收入这种,理论上,平均身高和平均体重,可以通过插值来进行预测,也不会出现最终累积,但是这种有样本类型的数据,只能分布在有人类活动区域才有效,城市内可以,但是荒郊野外呢?长江大河上?海洋荒岛上?这种数据,用插值的时候,需要特别注意,可以认为是有限定条件的来使用插值。
而可以用于插值的数据有哪些呢?
首先,就是自然科学类的数据(原则还是一样:非聚合值)——自然界客观存在,且不以人为意志所变更的数据,比如气温气压、降雨降水、高程、空气质量、土壤化合物含量、地下矿产储量(地统计学的原始研究对象)等等。
其次是与自然科学有关的人类活动观测数据,比如空气污染,比如水体污染,但是这些数据在使用的时候,会有限定条件:比如河流污染源插值,你的污染源还能向河流上游蔓延么?
第三,一些具有区域化特征的人文社科数据,也可以用于插值,比如在城市范围内,用采样区域的房价数据,来预测整个城市的房价分布。但是这样的预测,也需要注意各种限定条件。
所以,插值分析虽然是空间分析的helloworld级应用,但是不是万能的,使用的时候一定要多加注意。
待续未完。