PLS-SEM中指标解读:《 利用PLS-SEM揭开因果预测模型在信息系统研究中的
时间:2022-10-23 来源:未知 作者:cqfanli

这篇文章的作者们认为,尽管使用PLS-SEM的研究人员通常强调其分析的因果预测性质,但模型评估不能仅依赖于旨在评估路径模型解释力的标准。为了充分利用PLS-SEM中因果预测的目的,研究人员必须了解各种标准的有效性,如传统PLS-SEM标准、模型拟合、PLS预测、交叉验证预测能力测试(Cross-Validated Predictive Ability Test,CVPAT)和模型选择标准

因此,作者们讨论了PLS-SEM可用的因果预测标准的每个程序的细节,以及这些标准应如何解释。虽然该论文的重点在于揭开因果预测模型在PLS-SEM中的作用,但总体目标是比较不同标准的性能,并从信息系统领域的一组竞争模型中选择合适的因果预测模型

作者们的研究发现,传统的PLS-SEM标准(GoF、R^2和Q^2)和模型拟合难以确定合适的因果预测模型。相比之下,PLSpredict、CVPAT和模型选择标准(即贝叶斯信息准则(BIC)、BIC权重、Geweke–Meese准则(GM)、GM权重、汉南-奎因准则(HQ)和修正汉南-奎因准则(HQC))在确定适当的因果预测模型方面优于传统标准,因为这些标准在PLS-SEM中提供了样本内和样本外预测。当目标只是因果预测时,它为信息系统研究人员和从业者提供了正确评估、报告和解释PLS-SEM结果所需的知识,从而有助于保障在信息系统研究中使用PLS-SEM的目标。

引言:解释和预测

PLS-SEM的主要目标是预测和解释关键目标构念或确定其相关的前因概念,但是许多学者发现:在概念层面解释现象的能力和在测量层面生成预测的能力之间产生了差异,甚至研究模型建立后,“错误”模型有时比正确的模型预测得更好,而最好的预测模型通常不会提供太多解释

作者们认为选择方法的应用取决于研究的目标。如果目标涉及预测,那么研究人员应该考虑应用机器学习预测方法(即随机森林和人工神经网络),其中预测更为重要,但理论一致性可能就是次要问题。或者,如果研究集中于确认/解释性建模,研究人员应该考虑CB-SEM或新提出的一致PLS方法。这两种技术都有自己的拟合度量,通常面向样本内度量,用于评估模型的解释力和特征。

解释和预测是统计建模和估计的两个不同的概念。特别是,解释性建模侧重于最小化误差,以获得基础理论的最准确表示,这需要建立在完善的因果解释基础之上。预测建模寻求最小化误差和估计方差的组合,有时为了提高实证精度而牺牲理论精度。相应地,一个错误的模型可能产生更好的预测,而正确的模型可以在预测方面表现极差。而PLS-SEM可以被视为一种“因果预测”技术,通常意味着该模型有望显示出较高的预测准确性,同时也以完善的因果解释为基础。

 

PLS-SEM的评估指标样本内的预测准则:R^2(R Square,R方)

PLS-SEM中,最简单和最广泛采用的标准是R^2。R^2通常被视为预测能力的标准,代表每个内生性变量中解释的差异,其值越高,预测精度越高

市场营销的研究中,R^2值为0.75、0.50和0.25分别被认为是实质性的、中等的和较弱的标准。另外,一些学者认为:R^2值最少也应大于0.1,也有学者认为:R^2值为0.67、0.33和0.19分别为实质性、中等和较弱的标准。

但是,本文的作者强调:应该根据相关的学科背景来解释R^2值。比如,当测量一个天然的且可预测的概念时,例如技术接受模型,R^2值0.35–0.51就可以被认为是较强的标准。

R^2的缺陷

仅关注R^2值来评估理论模型可能会导致研究人员过度拟合其模型,使其过度适应数据中的信息或额外的差异,这限制了模型结果对其他样本的普遍性,甚至如果将同一模型用于从同一人群中抽取的另一组样本,则该模型可能并不适用。此外,R^2会随着自变量的增加而变大,进而产生更复杂的模型,因此,研究人员广泛使用调整后的R^2,它试图通过包含与模型中预测因子数量成比例的惩罚来纠正模型的复杂性。然而,调整后的R^2被认为缺乏正当理由,不适合评估模型的预测准确性。

样本外的预测准则:Q^2 (Q Square,Q方)

PLS-SEM中常用的样本外的预测指标是Stone–Geisser检验的Q^2。Q^2是通过盲目(Blindfold)过程的交叉验证获得,该程序省略了部分数据矩阵,估计了模型参数,并通过使用先前计算的估计来预测省略的数据。重复此过程,直到忽略每个数据点并重新估计模型。预测值和原始值之间的差值越小,Q^2值越大(即Q^2大于0:),从而确保模型的预测准确性和相关性。学者们建议使用5到10之间的省略距离。例如,省略距离为7意味着内生变量指标的每七个数据点在一次盲目运行中被消除。

一些学者认为:高于0.00、0.25和0.50的Q^2值分别是PLS路径模型的小、中和大预测相关性的准则。一些学者认为:总体而言,Q^2需要大于0.5,才能表示预测模型的合格。计算Q^2值有两种方法:交叉验证的重叠性和交叉验证的共同性,通常建议使用前者来探索PLS路径模型对交叉验证冗余(Q^2)的预测相关性。与效应大小(f^2)类似,研究人员还可以分析q^2效应大小,该值表明当从模型中省略指定的外生变量时,Q^2值的变化。本文的作者们认为:0.02、0.15和0.35的Q^2值分别表示某个内生变量上的外生变量具有小、中或大的预测相关性。

Q^2的缺陷

Q^2和q^2不能提供预测误差大小方面的高度可解释结果,即对于模型比较而言,他们没有明确的准则。Q^2和q^2并不是样本外预测的真正估计,因为他们只忽略样本内的数据点,而非整个样本观察结果。因此,Q^2和q^2只能部分被视为样本外预测的测量,因为样本结构在其计算中基本保持不变。

PLSpredict程序

一个合格预测程序是预测新事例的可测量信息,PLSpredict程序就是在指标或结构层面的PLS路径模型中生成基于保持样本的点预测,进而得到MAE(平均绝对误差Mean Absolute Error,观测值与真实值的误差绝对值的平均值),RMSE(均方根误差Root-mean-square error, 观测值与真实值偏差的平方和与观测次数m比值的平方根),Q^2_预测值。

在解释PLS预测结果时,重点应放在模型的关键内生构念上,而不是所有内生构念指标的预测误差上

首先,应评估Q2_预测值,以验证预测优于最原始的基准(定义为分析样本的指标平均值)。

其次,用PLSpredict程序产生的RMSE值和MAE值与线性回归模型产生的RMSE值和MAE值进行比较。在多数情况下,研究者应该使用RMSE,因为RMSE对偏差做了一次平方,这样在误差较小时,RMSE也可以放大误差,突出差异。但是,在预测误差分布不对称的情况下,MAE是更合适的预测统计量。如果对具有相同内生因变量的竞争模型的预测能力进行实证比较,则RMSE和MAE都应进行调查。与一组竞争模型的结果相比,如果一个模型对关键目标内生构念的预测误差统计较低,那么它就有更好的机会被科学地复制和解释,并表现出更高的预测能力。

PLSpredict程序的缺陷与CVPAT方法

尽管PLSpredict在一定程度上提高了预测估计能力,但该方法没有提供任何关于整体测试的建议,以评估替代模型(AM)的预测能力是否显著优于已建立模型(EM)。作为补救措施,一些学者开发了CVPAT方法,这是一种非参数的方法。这种新方法的目的是在两个理论推导的模型之间进行两两比较,这两个模型能够同时预测所有因变量(无论是反射变量还是形成变量)的指标。

特别是,该测试有助于研究人员确定在预先指定的显著性水平(例如α=0.05)下,AM是否比EM(反之亦然)具有显著更好的预测准确性。样本外预测误差是输出变量的预测值与其实际值之间的差值。与给定模型相关的预测能力损失被测量为与内生变量相关的所有指标的平均平方预测误差。当预测内生变量的指标时,该平均损失差异是两个竞争模型(EM vs AM)平均样本外差异的度量。和AM相比,EM的平均损失更高意味着平均预测误差更高,这表明EM的样本外模型性能较差(反之亦然)。为了补充这一结果,CVPAT还提供了p值和置信区间的显著性测试结果,作为一个模型相对于另一个模型的预测准确性的重要证据。

 

PLS-SEM的模型选择标准

本文的作者们提出了一些模型选择标准,作为作为PLSpredict和CVPAT的替代方案,这些标准在模型拟合和复杂性之间取得了平衡,以防止过度拟合,从而使模型可以推广到特定样本之外。

两个最广泛使用的模型选择标准是AIC(AIC信息准则,Akaike information criterion,赤池信息量准则)和BIC(贝叶斯信息准则)。AIC和BIC的概念基础和假设有所不同。具体来说,BIC提供模型为真的后验概率估计,并选择在给定数据集上使该概率最大化的模型。换句话说,它努力选择一个最有可能(在贝叶斯意义上)与底层数据生成模型一致的模型。相比之下,AIC的设计目的是在将根据数据估计的给定模型与“真实”但未知的数据生成过程进行比较时,估计损失的相对信息量

一些学者也提出使用一些AIC和BIC标准的变体,无偏AIC(AICu)、校正AIC(AICc)、Geweke–Meese准则(GM)、GM权重、汉南-奎因准则(HQ)和修正汉南-奎因准则(HQC)。需要注意的是,模型选择标准(尤其是BIC和GM)被称为样本内标准,可以替代需要保留样本的样本外标准。这种替代是有利的,尤其是当研究人员没有足够的保留样本时(对保留样本使用不足的样本会导致统计和预测能力的巨大损失),其目标是选择正确的指定模型,且预测误差较低。随后,这些模型选择标准有助于比较可能来自不同理论或研究背景的不同模型配置。

PLS-SEM的模型选择标准的缺陷

模型选择标准(即AIC、BIC和GM)应用中可能存在的一个问题是,在其原始值中,它们没有提供任何关于支持所考虑模型的证据相对权重的深入信息。具体而言,虽然标准值的差异对模型的排名和选择很有用,但在实践中,这种差异往往很小。当比较具有相似BIC值的两个模型时,很难确定对微小差异的统计重要性。为了克服这种不确定性,一些学者提出使用AICw、BICw和GMw来帮助研究人员理解在给定样本中,所选模型比其他模型好多少。

PLS-SEM的拟合测量准则

GoF是验证PLS模型的指标之一,但是一些学者认为GoF无法区分有效模型和无效模型,因此不适用于模型选择,也不适用于形成性测量结构GoF不会惩罚过度参数化的倾向,这意味着这些指数几乎总是倾向于复杂模型而不是节俭模型,从而导致过度拟合

一些学者提出了一些新的拟合度量准则包括标准化的均方根残差(SRMR)、平均数平方根残差平方共变异矩阵(RMS-theta)、规范适配指标(NFI;也称为Bentler–Bonett指数)、非标准拟合指数(NNFI;也称为Tucker–Lewis指数),以及精确的模型拟合测试(d_ULS欧式距离平方、d_G地理距离)。这些模型拟合度量能够判断假设模型结构与实证数据的拟合程度,从而有助于识别模型的错误水平。重要的是,这些模型拟合指标中的每一项都有自己的基准和使用建议。

PLS-SEM的拟合测量准则的缺陷

有几个原因表明必须谨慎使用模型拟合度量。首先,拟合度量(SRMR和精确模型拟合测试)也称为样本内度量,旨在评估模型的解释。因此,这些措施无法保证模型在多大程度上适用于另一个新数据集,也无法保证推论和政策建议在其他类似情况下的普遍适用性。第二,迄今尚未对这些措施进行全面评估。随后,文献中提倡的任何阈值都应被视为暂定的。第三,由于获得PLS-SEM解的算法不是基于最小化观测协方差矩阵和估计协方差矩阵之间的差异,因此基于卡方的模型拟合度量的概念及其在CB-SEM中的扩展不适用。第四,学者们质疑在CB-SEM研究中应用的模型拟合概念是否对PLS-SEM的应用有价值。最后,PLS-SEM中导致“不匹配”的模型拟合标准是指可以从数据中提取更多信息,而不是模型不正确。

 

实证设计

作者们比较了四个模型(注:原文是写的5个"Our analysis compared five different model configurations of omni-channel retailing with the key target construct of PI (see Figure 3)",但是Figure3上只有4模型图),如图。作者们使用了SmartPLS 3.3.2,Excel,R里的CVPAT软件包。

PLS-SEM中指标解读:《 利用PLS-SEM揭开因果预测模型在信息系统研究中的

测量模型

对于测量模型,作者们报告了反映性变量的因子载荷Loading,克朗巴哈系数法Cronbach's Alpha,rho_A,组合信度Composite Reliability,平均抽取变异量AVE,这些指标表示了构面的信度与效度。

PLS-SEM中指标解读:《 利用PLS-SEM揭开因果预测模型在信息系统研究中的

PLS-SEM中指标解读:《 利用PLS-SEM揭开因果预测模型在信息系统研究中的

此外,作者们也通过HTMT(异质-单质比率,Heterotrait-Monotrait ratio)报告了构面间的区分效度。

PLS-SEM中指标解读:《 利用PLS-SEM揭开因果预测模型在信息系统研究中的

对于形成性构念的测量检验,作者们报告了外部权重显著,方差膨胀系数,置信区间,构面与构面之间的相关小于0.7。

PLS-SEM中指标解读:《 利用PLS-SEM揭开因果预测模型在信息系统研究中的

结构模型

对于结构模型,作者们报告了路径模型,路径系数的显著性,标准误,置信区间,t-value,R^2,f^2。

PLS-SEM中指标解读:《 利用PLS-SEM揭开因果预测模型在信息系统研究中的

PLS-SEM中指标解读:《 利用PLS-SEM揭开因果预测模型在信息系统研究中的

模型结果的比较

PLS-SEM中指标解读:《 利用PLS-SEM揭开因果预测模型在信息系统研究中的

Table1是作者评估4个模型的稳健性的报表。

首先,根据PLS-SEM的标准,也就是Tenenhaus的GoF、R^2和Q^2可见,模型4是表现最好的模型,同时也是最复杂的模型,这同样意味着是在理论上最不可靠的模型;即便是调整后的R^2也支持对模型4的偏好。(Tenenhaus的GoF、R^2,调整后的R^2,Q^2越大越好)

注:GoF需要自行计算,公式为GoF=对构面交叉验证的共同性下所有构面的Q^2的平均值和所有内生变量的R^2的平均值进行开平方,上述的Q^2可以通过运算Smart PLS的Blindfolding程序得到。

PLS-SEM中指标解读:《 利用PLS-SEM揭开因果预测模型在信息系统研究中的

其次,根据渐进有效性(Asymptotically efficient)的标准,AIC, AICc,Mallow's Cp,Q2_predict支持对于模型4的偏好。(AIC, AICc,Mallow's Cp,AICu,FPE越小越好)

再三,根据渐进一致性(Asymptotically Consistent)的标准,模型2和模型3有更好的结果。(BIC,GM,HQ,HQc越小越好)

最后,PLS预测方面,RMSE和MAE指标上,模型1有更好的结果,模型4的反而最差;Q^2_predict指标上,模型1的数值最差,模型4的数值最好。(RMSE, MAE越小越好,Q^2_predict越大越好)

综上,与模型1和4相比,模型2和3的表现相似。然而,对于最终目标结构,模型2的PLS预测结果(即RMSE、MAE和Q2_预测)显示出比模型3更好的值。因此,作者们认为:在一组相互竞争的模型中,更精简的研究模型在样本外预测(RMSE和MAE)方面表现出更强的性能,但不一定在样本内模型选择标准方面表现出更强的性能。

注:FPE,Mallow's Cp,GM值并不包含在SmartPLS结果中,需要前往https://www.pls-sem.net/downloads/additional-useful-downloads/,下载名为“Model selection criteria”的Excel文档再进行计算。其中,表格中有一空为:R^2 of the target construct (saturated model: with all predictors predicting target construct),就是指当模型中所有的构念都指向结果构念时的R^2。PLS predict中的RMSE,MAE,Q^2_predict指的是Smart PLS报告中LV预测摘要里整个构面的指标。

为了减少模型选择标准结果的不确定性,作者们进一步对AICw、BICw和GMw进行了评估。

PLS-SEM中指标解读:《 利用PLS-SEM揭开因果预测模型在信息系统研究中的

AICw越大越好,BICw越大越好,GMw越大越好。

注:Δ(AIC-AICmin)是AIC减去模型中最小AIC的值,AIC weights的算法如下图:

PLS-SEM中指标解读:《 利用PLS-SEM揭开因果预测模型在信息系统研究中的

该公式可以通过Excel表格计算,exp为一个数学函数,比如计算模型1的AIC 权重即为:exp{-1/2*Δ(AIC模型1-AICmin)}除以4个模型的exp{-1/2*Δ(AIC-AICmin)}之和,也就是在表格中输入:EXP(-0.5*7.702)/(EXP(-0.5*0)+EXP(-0.5*7.702)+EXP(-0.5*0.557)+EXP(-0.5*0.557)),同理可得BIC和GM的权重。

 

CVPAT的预测标准(The Cross-Validated Predictive Ability Test )交叉验证预测能力测试

作者们将替代模型(AM,Alternative Model)定为模型2,3,4,已建立模型(EM,Established Model)定为模型1,通过CVPAT方法确定AM(模型2、3和4)是否比EM(模型1)提供更高的预测能力。

PLS-SEM中指标解读:《 利用PLS-SEM揭开因果预测模型在信息系统研究中的

通过对比,作者们发现相比其他模型,模型2的预测损失最小,且得到显著性和置信区间的支持。因此,模型2是比模型1具有更好的预测能力。

注:CVPAT需要在R Software的环境下运行,CVPAT Package可以在https://github.com/ECONshare/CVPAT/上下载。

PLS-SEM的模型拟合标准

PLS-SEM中指标解读:《 利用PLS-SEM揭开因果预测模型在信息系统研究中的

通过Table 4,我们可以看到模型3的SRMR指标,Ch-Square指标和NFI指标更好,但是和饱和模型4相比,没有突出的优势。

四个模型的d_G和d_ULS值表明原始值在所有模型中均不属于95%(或99%)的置信区间。四个模型的SRMR的值不超过0.08的阈值或其参考分布的95%和99%的上限值,除d_G和d_ULS外,所有四个模型都能获得模型拟合。

此外,SRMR拟合度量不能保证模型与另一个数据集的拟合程度。因此,在这项实证研究中,模型拟合标准的使用并没有明确表明决定因果预测的最佳拟合偏好。

总结

根据所有标准值对四种模型配置进行比较后发现,最初的模型2变体明显优于更复杂的模型(模型3和模型4),以及过于精简的模型(模型1)。换句话说,在PLS-SEM的解释和预测目标之间取得平衡时,理论上最完善的模型应该是模型2,因为它在大多数标准上都取得了合理的结果,如PLS指令、CVPAT和模型选择标准(即BIC、BICw、GM、GMw、HQ和HQC)。因此,作者们的研究表明,由于模型2在样本内和样本外预测能力方面的平衡结果,模型2有更好的科学可复制性、可解释性和更高的预测能力。

在所有PLS标准中,模型选择标准(即BIC/BICw和GM/GMw)、PLSpredict和CVPAT使研究人员能够通过兼顾理论发展和预测两个方面来比较竞争PLS路径模型。例如,研究人员倾向于在模型中添加更多变量(或路径),并依赖统计显著性来暗示因果预测,以帮助理论发展。因此,使用模型选择标准、PLSpredict和CVPAT可以提供补充信息,说明在理论建模中纳入变量是否成功地改善了现有的样本内和样本外信息。

因此,作者们呼吁在PLS-SEM中使用和报告模型选择标准、PLSpredict和CVPAT结果,因为这些标准使研究人员能够通过排除替代解释和识别具有高预测能力的变量来减少模型选择的不确定性。同时,这些标准通过减少泛化错误,使从业者能够以较少的错误做出此类决策,从而使政策决策更有可能在其他环境下发挥作用。

Reference.

Chin, W., Cheah, J. H., Liu, Y., Ting, H., Lim, X. J., & Cham, T. H. (2020). Demystifying the role of causal-predictive modeling using partial least squares structural equation modeling in information systems research. Industrial Management & Data Systems.

推荐阅读
  • 菲律宾高等教育委员会有关博士

    2019年12月19日,菲律宾高等教育委员会发布了关于菲律宾高等教育委员会对研究生课程的指导方案(备忘录法案〔2019〕15号)。 根据共和国法(RA)第7722号(也称为 1994年高等教育法)的相关规...

  • 教育部关于取消《留学回国人员证

    为贯彻落实党中央、国务院关于减证便民、优化服务的决策部署,深化放管服改革,简化留学回国人员办事程序,方便广大留学回国人员工作和生活,教育部决定取消《留学回国人员证明》。...

  • 教育部关于取消《在港澳地区学习

    为贯彻落实党中央、国务院关于减证便民、优化服务的决策部署,深化放管服改革,简化在港澳台学习人员办事程序,便利在港澳台学习人员在内地(大陆)工作和生活,教育部决定取消《在...

  • 教育部:反对部分国家高校借疫情

    3月19日,教育部留学服务中心发布《关于新冠肺炎疫情期间留学人员学历学位认证工作的补充说明》,全文如下: 新冠肺炎疫情暴发以来,我中心密切关注疫情对我留学人员海外生活和学习带...

  • 国(境)外学历学位认证服务使用

    甲方:教育部留学服务中心 乙方:国(境)外学历学位认证申请人 1. 协议签署 甲方按照本协议向乙方提供基于互联网的国(境)外学历学位认证相关服务。乙方需同意本协议的全部条款并在...

USC大学 | 出国留学 | 联系我们
微信:菲同凡想梦飞
电话:18996134073 / 09663508599
邮箱:admin@travel580.com

在职博士,菲律宾圣卡洛斯大学 Copyright © 梦飞

圣卡洛斯大学|菲律宾留学|菲律宾读博|出国留学
站长是圣卡洛斯大学的哲学博士研究生,网站建设是兴趣特长,本站仅为分享留学经历和旅游见闻。

菲同凡想QR