结构方程模型方法与应用(王济川)
结构方程模型,SEM,对于学习这方面的同学有很好的价值第一章绪论( Introduction)11模型表述( Model formulation1.11测量模型( Measurernent model)112结梅模型 Structural model)113模型表达方程( Model formulation in equations)12模型识别( Model identification13模型估计( Model estimation)14模型评估( Model evauation)15模型修正( Model modification)附录11将总体方差/协方差表达为模型参数的函数( Expressing population variances and covariances as functions of model parameters附录12结构方程模型的最大似然函数( Maximun likelihood function for sEM近年来结构方程模型( structural equation modeling,SEM)作为统计分析的一般框架( Bentler,1995;Bole,1989a; Huyou,1989; Jonesky,1973; Muthen&Muthen,1998-2008)被广泛地应用于社会科学的数据分析。结构方程模型在估计一组观察变量 Observed variables)与其代表的潜变量( latent variables)(或概念( constructa)、因子(aor)的关系的同时,分析各潜变量之间的关系( Bentler1980,1983; Bollen,1989a; Joreskog,1967,1969,1973; Joreskog& Sorbon,1979)这样,潜变量之间的关系估计便不受测量误差( measurement errors)的影响。结构方程模型源于因子分析( factor analysis)( Spearman1904; Tucker;11958)和路径分析( path analysis)(或联立方程( simultaneous equations)( Wright,1921,2·第一章绪论( Lntroduction1934)。基于因子分析的测量模型( measurement mcdel)与基于路径分析的结构公式( structural equations}的整合,形成了一个数据分析的一般框架,叫做结构方程模型( Joreskog,1973; Keesling,1972; wiley,1973)结构方程模型对解决数据分析中观察变量测量误差的影响提供了一个机制或平台。社会科学研究中某些概念,如智力、能力、倍任、自尊、动机、成功、雄心、偏见、疏远、保守等,是不能直接测量的。由于没有可操作性的方祛来直接测量这些假设的概念( constructs or concepts),研究者只能寻找一些可测量的观察标识变量( observed indicator variables)来间接地测量潜变量。遗憾的是,几乎所有的观察标识变量都会带有一定的测量误差( measurement errors)。即便是些可以直接测量的变量,在统计分析中通常也需要关注其测量误差。传统的分析方法,如多元回归 multiple regressions)、 ANOVA、路径分析及联立方程等,都忽略了模型中变量的浏量误差。一旦多元回归力程中的自变量出现测量误差,则模型残差( model residuals)就会与自变量相关,从而违背基本统计假设,引起回归模型的参数估计值出现偏倚(bias),导致拖论错误。sEM提供了一个实用、有效的手段,可同时评估测量( measurement)的质量并检测潜变量( latent variables)之间的因果关系( causal relationships)。运用结构方程模型,我们不但能构建非观察性潜变量,还能估计不受测量误差影响的潜变量之间的关系。结构方程模型的优点还包括:具有同时对多个因变量( dependent variables)建模的能力;检验模型的整体拟合度( overall model fit;检验直接效应( direct effects'、间接效应indirect effects和总效应( total effect;检验复杂与特定假设:检验跨组参数恒定性( parameter invariance);处理复杂数据(如带自相关误差/ autocorrelatederr的时间序列( time series)数据、非正态分布数据( non-mormal data)、删截数据( censorer data)以及分类结局数据( categorical outcomes data)等。本书将在以后的章节中讨论这些与模型特征相关的问题。本章通过以下涵盖结构方程建模过程(Boen&Long,1993)的5个步骤简要介绍结构方程模型1)模型表述( model formnlation):指模型估计之前形成的最初理论模型。该模型是在理论研究或实践经验的基础上形成的。(2)模型识别{ model identification):模型只别决定设定模型的参数估计是否有唯一解。如果模型错误设定,模型估计可能不收效( energe或无解(参数估计无唯一解)。(3)模型告计( nodel estimation):结构方程模型的估计有多种方法,最常用的是最大似然估计法( maxmum likelihood estimator),近几年一些稳健估计法( robust estimators)也被广泛应用。(4)模型评估( model evaluation):获得模型的参数估计值后,需要评估模型是否拟合数据(邱 it data)s如果模型对数据拟合良好,则经过该步骤后建模过程可11模型表述( Model formulation)·3以停止。5)模型修正( model modification):如果模型与数据拟合不好,则需要重新设定或修改模型此时需要决定如何删除、增加或倦改模型中的参数( parade-ters)s通过重新设定参数以提高模型拟合度。所有的SEM计算机程序在其输出结果中都提供模型参数的修正指数{ mlodification indices,M)以指导重新设定模型。一旦重新设定了模型,可重复上述4个步骤。实际研究中的建模过程可能会重复进行多欥的模型修正。以下各节我们会逐步介绍结构方程的建模过程。11模型表述( Model formulation)在结构方程模型的建模过程中,首先要设定所要估计的模型。有多种方法可以设定一个模型。最直接的方法是通过wght(1934)提出的路径图(pathdiagram)来描述研究者所慼兴趣的模型。路径图是结构方程模型的基础,因为它可使研究者用一种直接和有吸引力的方式来表达其所感兴趣的模型。路径图可以清晰地表达研究人员对于变量之间关系的想法,并可直接转换成建模所需要的方程。构建sEM模型的路径图有一些标示规则。例如,正方形或长方形表示观察变量( observed variables),观察变量也称为测量变量( measured variables)、外显变量( manifest variables)或外显标识( manifest indicators)。圆或椭圆表示潜变量 Latent variables)或因子。变量之间的关系用线条表示,如果两变量之间没有线条相连,则表示二者之间没有直接关系。单向箭头表示两变量之间具有效应(efe)关系,箭头所指的变量受另一个变量的影响。双向箭头表示变量之间具有关联( associations,但不表示变量之间的效应。图1.1-1是一假设的结构方程模型路径图。如前所述,潜变量用椭团表示,观察变量用长方形表示。潜变量的测量是通过一个或多个观察标识变量( observednicator variables)完成的。例如在本例的模型中,用两个观察变量{x1和m2)作为潜变量51的标识潜变量的标识为x3,x4和,而潜变量m的标识为3n,y2,y3请注意m仅有一个标识y4,表示该潜变量只有一个观察标识。由模型内变量决定的潜变量或因子称为内生潜变量( endogenous latent variables),用n表示,如果潜变量的原因基于模型之外,则称为外源潜变量( exoge-nous latent variable,用表示。本例有两个外源潜变量(1和52)及两个内生潜变量(m和m)。外源潜变量的标识称为外源标识( xogenous indicator,.本例为a1,…,内生潜变量的标识称为内生标识( endogenoUS indicator),本例为的,…,34。用6表示前者的测量误差项( measurement error term),用6表示后者的测量误差项(见图11-1)。路径图中的系数a和γ为路径系数( path coefficients)。其下标中第一个数字代表内生因变量( dependent endogenous varian)第一个下标代表原因变量4·第一章绪论( Introduetion)y2φY454图11-1假设的结构方程模型路径图( cauSaL vAriahle)其可以是内生变量也可以是外源变量。如果原因变量为外源变量〔5),则路径系数用γ表示;如果原因变量为内生变量(n),则路径系数用B表示。例如,B12表示内生变量m对m的效应;~2表示第二个外源变量{2对第一个内生变量m的效应。与多元回归一样,结构方程也有残差项( residualterm)a以上路径图中指向内生变量的c就是结构方程的残差项。与多元回归、ANOⅥA、路径分析等传统统计分析方法不同,结构方程模型分析的重点是潜变量或因子,而不是观察变量。结构方程模型的基本目的是提供一种不受测量误差影响的手段来估计设定模型中潜变量间的结构关系。将测量模型( measurement modell(或验证性因子分析( confirmatory factor analysis,CFA)和结构方程 structural equations(或潜交量模型( atent variable model)整合在一个结构方程模型框架内,就可以实现该目的。囚此可以说,一个一般结构方程模型由两部分组成:(1)联系观察变量和潜变量因子)的测量模型;(2)经由联立方程将各潜变量联系在一起的结构方程( Joreskog,1973)。1,11测量模型( Measurement mode测量模型是结构方程模型的测量部分( measurement component)。测量模型的基本目的是描述观察标识变量是否适合作为潜变量或因子的测量手段。测量模型由验证性因子分析来完成和评估。测量模型或者CA建立观察标识变量与其所测量的潜变量之间的联系或关系,然后用数据检验是否存在假设的因子结构 factorial structure)我们把图11-1所示的结构方程中的测量模型分别表述于图111-1全图111-3中。我们可用验证性因子模型(CFA)来检验这些测量模型。模型中的系数在因子分析中称为因子负载( ctor loading),表示观察变量与潜变量之间11模型表述( Model formulation)·5的联系。它们实际上是将观察变量作为因变量,相关潜变量作为自变量的线性回归系数。图1.1.1中的观察变量x1,…,通过因子负载A2115A252分别与潜变量∈和臼相联系;图111-2中的潮察变量y,孙,通讨因子负载λ1,21,λ31与潜变量η相联系。因子负载常用希腊字母Ax(或λy)表示,其中第一个下标代表一个因子负载标识第二个下标代表相应的潜变量。例如,x21代表标识x与外源潜变量1之间联系的因子负载;31代表标识v与内生潜变量m1之间联系的因子负载。在图111-1的测量模型中,有两个潜变量,分别是1和2,均可由一系列观察标识测量。观察变量x1和r2是潜变量1的标识,观察变量x3,c4,s是潜变量2的标识。该测量模型中两个潜变量t1和2相互关联(图11中的如1表示1与E2间的协方差),但不表示因果关系。如果这两个潜变量之间没有相关关系,即如=0,则丘1和臼2就分别有两个测量方程,其中,51的测量方程仅有网个观察标识,园此不能被识别。对于单因子CFA模型( single factor CFA mode〕.模型识别至少需要有3个标识,而且误差项不能相关。图11.12所示的单因子验证性因子模型是恰识别的 Gust identifier),因为该模型的观察数据点即观察变量的方差协方差的数量(3(3+1/2=6),等于自由参数的数量(即2个自由因了负载3个误差项方差和1个因子方差)。对于该模型,尽管我们能够估计其模型参数,但不能评估模型拟合数据的情况。为了评估模型的拟合度,模型必须是超识别的( overidentified,即观察数据点数要大于模型估计的自由参数总数。一个单因子验证性因子分析模型,如果不设定误差相关( error correlAtion),需要4个以上的标识才能达到超识别。然而,如果个CFA模型有多因子,且某特定因子至少与另一因子相关,但误差项不相关,那么,这个因子也可以只有两个测量标识( Bollen,199a; Brown,2006)。图111-1所示的测量模型就是这样。虽然因子G1仅有2个标识但整个模型(即带因子61和2的CFA模型)是超识别的。当然,一个因子只有两个测量标识是不理想图1.1.12测量模型图1.1.1-1测量模理1图111-3测量模型36·第一章绪论( Lntroduction)的。不同的标识可以反映潜变量的不同侧面,在CFA模型中:每个因子有多个测量标识能更好地反相关潜变量。图1113是一个简单测量模型( simple measurement, model),它仅有一个因子m和一个标识变量4如果单个观察标识变量没有测量误差,此时,简单测量模型就变成=m,其屮因子负荷λy2为1.0,测量误差为00。也就是说,观察变最%4是潜变量m的完美测量 perfect fit)a如果单标识不是完美测量则测量模型不能估计其测量误差。不过,如果能有该标识可靠度( reliability)的信息,该观察标识变量所代表的潜变量仍可包括在模型中( Hayduk,1987;Wang, Fisher,Siegal,lalk& carlson,1995)。我们将在第三章中讨论该间题。1.1.2结构模型(8 Structural model)确定了测量模型中的潜变量以后,就可在结构方程模型的另一部分—结构模型( structural model中评估潜变量之间的相互关系。结构模型也称结构方程( [structural equations)或潜变量模型( atent varialle mode)(见图1.121)。其中路径系数1,m,m和n2设定了潜变量,2与潜变量m1,m之间的关系而2设定了变量m与m之间的关系。即结构模型定义了各潜变量之间的关系1图1.12-1结构模型在结构方程模型中,各潜变量之间的关系是与测量模型同时估计的。注意如果结构模型中的变量都是观察变量而不是潜变量,那么,结构方程就会变成组观察变量之间结构关系的建模体系。这样,模型就简化为传统的社会学中的路径分析( path analysis或计量经济学中的联立方程 simultaneous equations)图11.21所示模型是一个递归模型{ recursive model),刘果模型具有回馈reciprocal)或反馈效应( feedback effects:即7与m相互影响(即互为因果关系),则该模型称为非递归模型( nonrecursive mode)l。本书仅讨论递归模型的11模型表述( Model formulation)·7应用。1.13模型表达方程( Model formulation in equations)般结构方程( general structural equation mode)可用3个基本方程表达7=B7+s+Y= Ayr+(1.1.31)X=4-5+d这是以矩阵格式表达的方程式。与这召个方程有关的变量矩阵的定义见表1,1.31公式(11.31)中的第一个方程为结构方程,其建立反映潜变量间效应关系的结构方程。7=(,…,m)代表相应的内生潜变量:E=(1,…,5n)为外源潜变量。内生与外源潜变量由带系数矩阵(beta)和r(gmma)及误差向量c(zeta)的线性方程迕接,其中P代表外源潜变量对内生潜变量的效应,B代表某些内生潜变量对其他内生潜变量的效应代表回残差。假定E()=0,且s与,n不相关。表113-1一般續构方程模型的3个基本方程中变量矩阵的定义变量定义度内生潜变量mx1外源潜变量s(zeta)方程中的干扰项( disturbance内标识外狼标识e(epsilon)y的测量误差d(delte的测量误差gx1注:m和n分别代表样本中内生潜变量和外源潜变量的数量;p和q是内生标识和外源标识的数公式(131)中的第二、三个方程为根据观察变量定义潜变量的测量模型measurement models)l第二个方程表示内生标识变量y与内生潜变量{即η)之间的关系;第三个方程表示外生标识变量m与外生潜变量(即)之间的关系。观察变量和通过因子载荷A和1x分别与相应的潜变量n和相关。c和δ分别是与观察变量y和x相关联的测量误差。假定E(E)=0与E(6)=0,误差s和6与潜变量η和£不相关,但测量误差之间(之间或5之间)或两潜变量间可能相关。当或不存在测量误差时,c或中相应的元素即为零注意,上述结构方程模型中没有设定截距〔 intercepts)。为简化模型公式推导起见,传统上,结构方程模型的表述和估计不是基于原始观察变量,而是原始观察变量的均数离差( deviations from means当变量x和y都是均数离差测量时,公式(11381)中各个方程里也就没有截距项了s当模型涉及截距均数(如在多8·第一章绪沦( Introduction)组模型( multi-group model)中)或涉及变量门栏( thresholds of variables)(如带有分类结局变量的模型)时,模型表述私估计将基于原始观察变量。在公式(1,13-1)的3个基本方程中,共有8个基础矩阵,即A4,4,r,B,更距,郾和6( Jareskog& Sorbom,1981)。一个结构方程模型可由这8个矩阵设定的结构米定义。在结构方程分析的早期,结构方程模型是由使用这8个参数矩阵的矩阵格式设定的。虽然现在的SEM程序/件多不用矩阵格式设定模型但在Mpls和其他SEM软件的输出结果中,仍然报告这8个参数矩阵的参数估计值信息(如初始值( starting values)。这些矩阵有助于研究者深入了解结构方程模型,检视结果中特定参数的估计。表132总结了这些矩阵和向量。前两个矩阵!和A分别是连接观察标识与潜变量η和的因子载荷矩阵,B和r为结构系数矩阵。矩阵B是一个表示内生潜变量之间关系的系数矩阵。模型假设-B)非奇异( nansingular',因此公式(113-1)的第一个方程中(I-B)1存在(其中,「为单位矩阵,B为外生潜变量问的关系系数矩阼,否则不能进行模型估计。矩阵r是一个表示外生潜变量与内生潜变量的关系的系数矩阵。在一般结构方程模型中,有4个方差/协方差矩阵( variance/covariance matrx)更(phi).vpsi),( theta-epsilon)和白 s/theta delta),每个矩阵都为对称方阵( Symmetric square matrix),即每个矩阵的行数等于列数。各方差/协方差矩阵主对角线上的元素为方差( variance,对角线以外的元素为矩阵中成对变量的协方差( covariance当所有变量,包括观察变量即潜变量的标识变量)和潜变量标准化后,各方差/协方差矩阵便成为一个相关矩阵( corre ation matrix)),其中,对角线上的值为1,对角线以外的值为相关系数( carrelations)a表1.1,3-2一般结构方程模型的8个基本参数矩阵矩阵定义维度系数矩库Ay(lambda gy与n之间的因子载荀卩XmAz(lambda zx与之间的因子载荷9x TiB(beta)n与η之间的系数矩阵I (gamE与q之间的系数矩阵方差/协方差矩阵中{phi)的方差/协方差矩阵w(pst)的方差/协b方差矩阵e(theta-epsilon)的方差/协方差矩阵p x peo(theta-delt a6的方差/协方差矩阵qx泮:F是v约变量数q是x的变量数m是E的变量数n是n的变量数。矩阵φ是外源潜变量的方差/协方差矩阵,其对角线元素如为外源潜变量丘的方差对角线以外的元素ψ(矩阵φ中第;行、第j列的元素)是外源
用户评论