已对现有的各种插值方法做了详细分析,总体看来,现有的插值方法大多限于技术上的操作,即如何实现该插值方法,但并未对该插值方法背后的逻辑和依据的理论基础进行深入的探讨。具体来说,现有的插值方法存在三方面的问题,一是并未深入研究插值的逻辑是什么,二是并未明确提出应遵照哪些原则进行插值,三是并未指出插值时要考虑哪些因素。
结构逻辑插值方法是包含分类插值、关联插值和多重取优插值的一个综合插值方法。首先,结构逻辑插值方法应包含分类插值对项目无响应进行插值时,通常按照样本的群特征对其进行分类,分类的原则应使群间方差尽可能大,群内方差尽可能小,换言之,同属一个群的样本特征应较为相似,而属于不同群的样本特征差异较大。
例如,对社会问卷调查中的样本,可以按照性别、受教育程度、居住区域、职业等特征对其进行分类。而对于一些样本属性特征不是很明确的问卷调查中的样本,可以借助机器学习的算法对其进行分类,例如可以使用决策树算法、随机森林算法、kNN算法、朴素贝叶斯算法、支持向量机、逻辑回归或聚类算法对样本进行分类。
其次,结构逻辑插值方法包含关联插值对样本按照群特征进行分类后,同属一个群的样本特征较为相似,即同属一个群的样本之间的关联程度较高。例如,在性别、受教育程度、年龄范围、工作时间、职业大致相同的情况下,个体的收入不会相差很大,如果在问卷调查中个体的收入是缺失的,则可以依据个体所在群的其他非缺失样本的特征,大致估算出收入的一个范围,这与HotDeck插值法和kNN插值法的思想是一致的,这就是关联插值。
对于一些大数据中的样本,样本间的关系可能不是很清晰,可通过机器学习中的关联规则算法学习关联规则。关联规则算法是一种基于规则的机器学习算法,该算法可以在大数据中发现彼此之间的关系,它的目的是利用一些度量指标来分辨数据库中存在当样本间的关联规则明确后,就可以对缺失数据进行关联插值。
进行关联插值时应充分考虑非缺失样本的统计特征,如果待插值的变量是数值型变量且非缺失数据服从正态分布,则使用同一个群内非缺失数据的均值填充缺失值,这就是组内均值插值;如果待插值变量是数值型变量但非缺失数据的分布是非正态的,则使用同一个群内非缺失数据的中位数填充缺失值,这就是组内中位数插值;如果待插值变量是定性变量,则使用同一个群非缺失数据的众数对缺失值进行插值,这就是组内众数插值。
当对抽样调查样本正确分类且按照关联规则插值后,可能会出现多个插值结果,这是由于选择的分类方法不同或者基于不同的关联规则对缺失值进行插值引起的,此时面临一个多重取优的问题,即如何从产生的插值结果里选取一个最优的,也就是和总体的特征最接近的真实值做为最终的插值结果,这本质上是一个最优化问题,可以理解为求目标函数极值的问题。
我们可以借助数学上或机器学习中的算法求解最优化问题,例如可以通过费马定理、拉格朗日乘数法、梯度下降法、牛顿法、坐标下降法、模拟退火算法、遗传算法、分治法、分阶段优化法或动态规划算法等求解最优化问题,从而达到多重取优的目的。当然也可以制定科学、合理的规则或标准多重取优,多重取优的过程中应充分考虑个体的行为特征,由于个体异质性的存在,缺失值的插值结果可能会不同。
例如,在群特征和统计特征都相同的情况下,在有关收入的调查问卷中,某个个体天资聪颖又勤奋工作,则收入可能就会很高,这时要参考个体的行为特征多重取优。
结构逻辑插值方法是抽样学习的一个方法,通过机器学习中的算法学习到分类规则、关联规则、多重取优规则,或更具体地说,通过抽样学习的方法,学习到个体的群特征、统计特征和个体行为特征,并基于这些特征对包含缺失值的样本进行插值。这些机器学习算法包含三大类:第一,生成分类规则的算法,如决策树、随机森林、kNN、朴素贝叶斯、支持向量机、聚类分析等算法;
第二,生成关联规则的算法一Apriori算法,通过置信度和支持度学习样本之间的关联关系;第三,生成多重取优规则的算法,如梯度下降法、坐标下降法、模拟退火算法、遗传算法、动态规划算法等。尽管上述插值规则为项目无响应插值提供了方法论依据,但在实际应用中,应结合实际问题的特征选择合适的插值方法进行插值,坚持一切从实际出发,具体问题具体分析,不能脱离了实际问题而空谈方法。
对具体问题分析时既要结合研究者的知识经验水平等主观因素,又要结合缺失数据本身的特征等客观因素选择合适的插值方法。结构逻辑插值方法是集分类插值、关联插值和多重取优插值为一体的插值方法,进行结构逻辑插值时应同时考虑到这三个准则。
同时,结构逻辑插值方法还是现有插值方法的综合,例如,按照生成的分类和关联规则对缺失值插值时可能会用到决策树插值、随机森林插值、组内均值插值、组内中位数插值、组内众数插值、HotDeck插值、kNN插值等插值方法,因此,结构逻辑插值方法是一种综合的插值方法。
基于前文提出的结构逻辑插值方法的理论做出项目无响应问题的结构逻辑插,从而为项目无响应问题提出方法论导向。结构逻辑插值图类似于决策树的结构,最顶端的无响应相当于决策树的根节点,最底端的插值和加权相当于决策树的叶子节点。项目无响应问题的结构逻辑插值方法从上到下分为四个层次:问题层、准则层、方案层和应用层,这四个层次是处理无响应问题时进行判断和分析的逻辑顺序。
问题层指对出现的无响应问题进行分类,判断其是属于项目无响应还是属于单位无响应。如果调查问卷是部分缺失的则属于项目无响应,如果调查问卷是完全空白的,则属于单位无响应。准则层指基于一定的准则选择何种方法处理无响应问题。对于项目无响应问题,主要是对于缺失的定性或定量变量选择插值方法进行处理;对于单位无响应问题,主要是运用加权方法进行处理。
方案层主要是对处理无响应问题的各种方法进行计算和评估。对项目无响应问题,主要是对各种单插值方法进行计算并评估其插值效果的好坏,这些单插值方法包含删除法、均值插值、随机插值、kNN插值、HotDeck插值、随机森林插值和回归插值。其中,删除法、随机插值、kNN插值、HotDeck插值、随机森林插值对定性和定量变量均适用,众数插值、1ogistic回归、多项logistic回归或顺序logistic回归适用于定性变量的插值;
均值插值、中位数插值、广义线性回归插值适用于定量变量的插值。可以使用方差分析的方法对项目无响应的各种插值方法进行评估,即通过比较基于各种插值方法后变量的方差大小来评估该插值方法的好坏,哪种插值方法得到的变量的方差较小表明该插值方法效果较好。对单位无响应问题,主要是对各种加权方法进行评估,判断其加权效果的好坏,不对单位无响应问题进行深入研究。
应用层是指无响应问题的最后处理结果,即将基于方案层选定的方法应用于无响应问题的处理中。对项目无响应问题,应用层指基于方案层选定的某种单插值方法对项目无响应问题插值后的结果;对单位无响应问题,应用层指基于方案层选定的某种加权方法对单位无响应加权后的结果。
项目无响应问题的结构逻辑插值方法是通过计算机不断迭代、不断学习并形成记忆来完成的,其中,不断迭代的目的是确保插值或加权要达到一定的精度;不断学习的目的是为了优化各种插值或加权算法;通过计算机的记忆可以形成一定的规则,以后在处理无响应问题时基于该规则进行处理,可以节约时间,极大提高计算机的工作效率。
结构逻辑插值方法的方案层涉及到对各种单插值方法的评估,即涉及到使用什么标准评价各种单插值方法的效果好坏,除了传统的使用估计量的方差估计值对各种插值方法进行评估外,还可以使用一致性检验的方法对插值效果进行评估,提出通过计算Kappa值比较各种插值方法的效果优劣。
在数据分析或临床工作中,我们会经常遇到检验一致性的问题,如判断不同模型或者诊断方法在预测结果上是否具有一致性,如模型预测的结果与实际结果是否具有一致性,又如两名或多名医生对同一病人的诊断结论是否一致,一名医生多次诊断结论是否一致。不同诊断方法诊断得出的结果,除了专业知识外,还有可能是机遇因素导致的。
虽然我们直觉上可以使用准确率作为一致性的评价指标,但当答案的分布很不均匀时,准确率就不是一个很好的度量值,年Cohen等提出用Kappa值作为评价判断的一致性程度的指标,实践证明,它是一个描述诊断的一致性较为理想的指标,因此在临床试验中得到广泛的应用。
由于诊断试验一致性的大小不完全取决于研究者的临床经验和诊断能力,还可能是由于机遇因素的作用,致使不同研究者得出相同的诊断结论,即没有受过专业医疗教育的人对患者进行诊断也可能会得出与专业医生一样的结论,而这种一致性结论完全是由于机遇因素导致的。