在多元建模中,模型性能很大程度上受到建模所用样本的影响。随着分析仪器的发展,样本光谱信息的获取越来越容易。样本量不很大时建模样本的增多可以提高模型的预测性能。然而,过多的样本可能导致冗余信息,而且样本目标值的测量通常费钱且耗时,提高模型性能的代价高昂。因此,需要从大量样本中选择出代表性样本。本综述总结了化学计量学领域提出的19种代表性样本选择方法,并首次将这些方法分为基于抽样的方法、基于距离的方法、基于聚类的方法、基于变量选择的方法、基于实验设计的方法、基于奇异样本检测的方法和基于预处理的方法等七类。并对每种方法的原理、优缺点以及适用范围进行总结,为选择代表性样本方法提供参考。
张可欣,张强,刘鹏,卞希慧.光谱多元建模中代表性样本选择方法研究综述[J].科研仪器案例成果数据库,2023,(0).