用偏最小二乘求解结构方程模型基本属于鬼扯

谢益辉 / 2008-09-04

这篇日志的数学理论参见朱利平和刘莉 2005 年的一篇论文《线性结构方程参数估计的一种简单方法》，载于《应用概率统计》。

偏最小二乘法（Partial Least Square，PLS）求解结构方程模型的基本思路是：先用 PLS 分别求出因变量和自变量的线性组合系数（只求第一成分！），然后根据 SEM 的形式，将这些线性组合拆分为潜变量，然后再计算各个潜变量的数值（因为它们都是观测变量的线性组合），连潜变量都可以计算出数值的话，我们便可以为所欲为了，下面根据这些数值分别和观测变量做回归，求出观测变量对潜变量一一回归的系数，便是测量模型的系数了，最后拿因变量的潜变量对自变量的潜变量一一回归，便得到了结构模型的系数。

记得吴老以前曾经在课上讲过，对于结构方程模型，PLS 方法相对于协方差建模来说优势在于前者可以计算出潜变量的值，这句话我不敢苟同，因为我觉得这不能称之为 “优势”，充其量是披着人皮的鬼扯。详细原因我没时间写，大致有这么几点：

为什么只取第一成分（或第一组线性组合）？按照 “信息” 的观点，第一成分未必提取了足够的信息。
为什么一个成分是由若干个潜变量相加而成？或者为什么一个成分可以拆分为若干个潜变量？这种拆分的理论依据何在？仅仅是因为知道某几个观测变量受一个潜变量影响，就硬性从一个成分中提取这几个观测变量的线性组合作为潜变量的代表？
既然潜变量是由观测变量线性组合而来，为什么下一步又要反过来，拿观测变量对潜变量做回归？即：拿每一个观测变量的值和几个观测变量的线性组合值做回归。这一步逻辑是如何扭转过来的？观测变量究竟是原因还是结果？
潜变量作为观测变量的线性组合是什么具体意思？看起来是加权求和的样子，所以大多数做满意度的人都把它奉为 “满意度指标”，而这种权数的依据（协方差最大化）和真正的满意度究竟是什么关系？

欢迎力挺结构方程模型以及做满意度研究的朋友们拍砖。

← 大家来找茬：这批数据有什么特别之处？（已提供真相）三只蚊子三只蚊子跑得快 →

Disqus Utterances Preferences

用偏最小二乘求解结构方程模型基本属于鬼扯

用偏最小二乘求解结构方程模型基本属于鬼扯

谢益辉 / 2008-09-04

Recommend

觉得天上会掉钱的举手！（比尔盖茨会给大家发钱？）

GIF 的发音问题

黑客新闻的恶趣味

为什么汇总的数据不能说明问题

是谁带来了水平滚动条

图形语法、哥哥作图以及令人生疑的致谢

Conditional CAPTCHA：进一步阻拦垃圾评论

终于有人自觉地不问我结构方程模型问题了

人的世界是连续的，计算机的世界是离散的

哇哈哈哈！金融危机与 Copula

About Joyk