Stata预测命令怎么用？参数设置与结果解读技巧

Stata作为一款功能强大的统计软件，其预测命令在回归分析后结果解读中扮演着关键角色，预测命令的核心功能是根据已估计的模型，为新数据或现有数据生成拟合值、残差、预测概率等多种指标，帮助研究者验证模型、解释变量关系或进行外推预测，Stata的预测命令通常在估计模型后使用predict命令执行，其语法灵活,可搭配不同选项实现多样化的预测需求。

（图片来源网络，侵删）

以最常见的线性回归模型regress为例，执行regress y x1 x2后，使用predict命令可生成多种结果，默认情况下，predict yhat会生成因变量的拟合值（即预测值），计算公式为模型预测的y = β0 + β1*x1 + β2*x2，若需获取残差，则使用predict e, residual，残差反映实际值与拟合值的偏差，是诊断模型拟合优度的重要指标，线性回归还可预测标准误（predict se, stdp）或预测的标准误（predict stdf, stdf），前者反映因变量均值预测的不确定性，后者反映个体预测的不确定性，后者通常大于前者,因包含随机误差项。

对于广义线性模型（如Logit、Probit），predict命令的选项更为丰富，以Logit模型logit y x1 x2为例，默认predict p会生成预测概率（即P(y=1|x1,x2)），这是解释二元因变量模型的核心指标，若需计算线性预测值（即xb），使用predict xb, xb；计算优势比（odds ratio）则需先估计模型，再用predict or, or（需结合lincom或margins命令进一步处理），Probit模型的预测逻辑类似，但需注意其累积分布函数（CDF）与Logit不同,预测概率的解释需结合标准正态分布。

面板数据模型中，predict命令需考虑个体效应，对于固定效应模型xtreg y x1 x2, fe，predict yhat生成的是组内均值调整后的拟合值，而随机效应模型xtreg y x1 x2, re的预测则包含随机效应成分，动态面板模型（如xtabond2）的预测需谨慎，因涉及滞后项的工具变量处理，Stata的predict命令可能无法直接支持,需手动计算。

多类别变量模型（如mlogit）的预测更为复杂。predict命令可生成各类别的预测概率（predict pr1 pr2 pr3, pr），或计算类别间的边际效应（需结合margins命令），有序Logit模型（ologit）则可通过predict p1 p2 p3, p获得各类别的累积概率，或使用predict outcome, outcome预测最可能类别。

（图片来源网络，侵删）

时间序列模型（如ARIMA、VAR）的预测需使用forecast命令，而非predict。arima y x1 x2, ar(1) ma(1)后，dynamic(tq(2022q1)) forecast y_forecast, step(4)可生成2022年Q1起未来4期的预测值，时间序列预测需注意样本范围、动态调整选项及预测区间的设置。

以下是常见预测选项的总结：

模型类型	预测目标	命令选项示例	说明
线性回归	拟合值	`predict yhat`	因变量的预测均值
线性回归	残差	`predict e, residual`	实际值与拟合值之差
Logit/Probit	预测概率	`predict p, p`	P(y=1
Logit/Probit	线性预测值	`predict xb, xb`	xβ的线性组合
面板固定效应	组内拟合值	`predict yhat, xb`	剔除个体效应后的预测值
多类别Logit	类别概率	`predict pr1, pr(1)`	第1类别的预测概率
时间序列ARIMA	动态预测	`forecast fcast, step(5)`	未来5期预测值

使用predict命令时需注意：1）必须在估计模型后立即执行，否则模型结果会被覆盖；2）选项需与模型类型匹配，如Logit模型不能使用residual选项；3）预测样本可通过if或in限定，如predict yhat if e(sample)仅对估计样本预测；4）新数据预测需先使用preserve保存原数据，再加载新数据并执行predict。

相关问答FAQs：

（图片来源网络，侵删）

问题：为什么在Logit模型中使用predict p, p后得到的预测概率有大于1或小于0的情况？
解答：正常情况下，Logit模型的预测概率应在(0,1)区间内，若出现概率≤0或≥1，可能是由于模型存在完全分离或准完全分离（如某个自变量完全预测因变量），导致系数估计值无限大，此时可检查变量分布，使用tab y x1观察交叉表，或采用firthlogit命令进行偏似然估计解决分离问题，数据中极端值或缺失值处理不当也可能导致异常预测值，需通过summarize x1 x2排查数据异常。
问题：面板数据固定效应模型预测时，如何保留个体效应？
解答：固定效应模型xtreg y x1 x2, fe的默认预测（predict yhat, xb）会自动剔除个体效应（因个体效应在组内差分时被消除），若需包含个体效应的预测，需先通过xtsum计算个体均值x1_mean x2_mean，再手动计算yhat_full = _b[_cons] + _b[x1]*x1 + _b[x2]*x2 + u_i，其中u_i为个体固定效应（可通过predict u, u获取），注意，predict u, u仅在xtreg后生成个体效应估计值,需与线性预测值结合使用。