应用多元统计分析高惠璇pdf完整版|百度网盘下载

时间: 2022-05-04 22:24:19  891 变量 变量 方差

编者注:应用多元统计分析高慧轩pdf

本书是北京大学数学科学学院概率统计系《应用多元统计分析》课程多年使用的教材。主要介绍了一些实用的多元统计分析方法的理论和应用,还列举了很多例子,读者可以一目了然,有兴趣的欢迎下载学习


应用多元统计分析高慧轩pdf

编辑推荐

本书是北京大学数学科学学院概率统计系《应用多元统计分析》课程多年使用的教材。主要介绍了一些实用的多元统计分析方法的理论和应用,并列举了各种应用实例。 ,并以国际知名的统计分析软件SAs系统为典型工具,

通过实例介绍如何处理数据分析中的各种实际问题。本书可作为综合性大学、工科大学或高等师范院校数学系、应用数学系、经济学等相关专业本科生或研究生的教材或教学参考书;对于从事其他领域应用统计的工作人员来说,这也是一本极好的书。很好的学习参考书。

相关内容部分预览

简介

《十一五》*普通高等教育规划教材、北大数学教学系列、本科数学基础课教材:应用多元统计分析”主要介绍了一些实用的多元统计分析方法的理论和应用。各个方面都列出来了,

同时以国际著名的统计分析软件SAS系统为典型工具,通过实例介绍如何处理数据分析中的各种实际问题。

关于作者

高慧轩,北京大学数学科学学院教授。 1965年毕业于北京大学数学力学系。长期从事概率论和数理统计的教学和科研工作。主要研究方向为统计计算,

统计软件和多元统计方法的应用。曾参与国家教委“数学软件研究与开发”项目和统计软件的开发与推广。

本书章节介绍

应用多元统计分析分为十一章。第一章为引言;第2、三章介绍多元统计分析的理论基础——多元正态分布及其参数的估计与检验;

包括模型、参数估计及其性质、假设检验、变量选择和双筛选逐步回归;第 5 章和第 6 章介绍分类问题(判别和聚类);第7-9章介绍回归维多元方法(主成分分析法、因子分析法和对应分析法);

第10章讨论了两组相关变量的典型相关分析;第11章介绍了近年来发展起来的偏最小二乘回归分析方法;并且每章都配有相应的习题。 《附录》介绍了本课程所需矩阵代数的相关内容;书末附有“一些习题的参考解法或提示”,方便读者自学。

《应用多元统计分析》可作为综合性大学、工程大学或高等师范院校数学、应用数学、经济学等相关专业本科生或研究生的教材或教学参考书;对于其他领域的应用统计学工作人员也是一个很好的学习参考。

什么是应用多元统计分析

应用多元统计分析

基础数据:N个样本,P个变量的单个样本,由行组成的数据表

定量变量:分类的和有序的;定量变量:数值

数学公式的角度分为:因变量和自变量

不同类型的变量有最高计算级别的限制:分类变量【只能判断真假,有无】、序数变量【只能计算大小】、数值【加减运算】

数据本身的变化方向分为[升级变化,多变化一],[降级变化,多变化一]

升级需要对数据进行编码:更高级别的计算,但信息可能会失真

降级需要对数据进行分组:计算级别较低,但信息可能较少

自变量关系分析:聚类分析、主成分分析和因子分析

自变量与因变量的关系分析:

多元数据的描述性统计[为数据选择合适的图形]

图形:环形图、矩阵散点图、等高线图、雷达图、闪电图、谐波曲线图、Chershev 人脸图

描述性统计:均值向量、方差和协方差矩阵、相关系数矩阵

什么是主成分分析?

主成分的概念由 Karl Pearson 在 1901 年提出

一种检验多个变量之间相关性的多元统计方法

研究如何通过几个主成分来解释多个变量之间的内部结构。即从原始变量中推导出几个主成分,使它们尽可能多地保留原始变量的信息,并且相互独立

主成分分析的目的:数据压缩;数据解读

常用于寻找判断事物或现象的综合指标,并对综合指标所包含的信息进行恰当的解释

主成分分析的基本思想(以两个变量为例)

集中这两个相关变量所承载的信息(在统计学中,信息往往是指数据的变化)

假设只有两个变量x1和x2,从散点图中可以看出这两个变量是相关的,也就是说这两个变量提供的信息是重叠的

如果两个变量用一个变量来表示,而新的变量尽可能地包含了原来两个变量的信息,这就是降维的过程

降维图

插图:

椭圆有一个长轴和一个短轴,称为长轴。在长轴方向,数据变化明显较大,而在短轴方向变化较小。

如果沿长轴设置一个新的坐标系,那么新生成的两个变量与原变量之间会有一定的数学转换关系。同时,这两个新变量之间没有关联,长轴变量承载了大部分数据变化信息,而短轴变量只承载了一小部分变化信息(变异)

此时只有长轴方向的变量才能代表原来两个变量的信息。这也将原来的两个变量降维为一个变量。长短轴差越大,降维越合理

多维变量的情况类似,但都是高维椭球体,无法直观观察

每个变量都有一个轴,因此几个变量有几个主轴。首先找出椭球的所有主轴,然后将代表大部分数据信息的最长轴作为新变量。这样就完成了降维过程

找到的新变量是原始变量的线性组合,称为主成分

主成分分析的数学模型:

数学处理就是将原来的p个变量线性组合成一个新的变量

设p个原变量为 ,新变量(即主成分)为 ,主成分与原变量的关系表示为

公式

选择几个主成分?选择标准是什么?

选择标准是什么? :

所选主成分表示的主轴长度之和占主轴总度数之和的大部分

在统计上,主成分所代表的原始变量的信息用它的方差来表示。因此,选择的第一个主成分是所有主成分中方差最大的那个,即最大的Var(yi)

如果第一个主成分不足以代表原始变量,考虑选择第​​二个主成分,以此类推

这些主成分不相关,方差递减

选择几个主成分?

一般要求所选主成分的方差之和占总方差的80%以上。当然,这只是一个通用标准,具体选择要视实际情况而定

如果原始变量之间的相关性高,降维效果会更好,选择的主成分会更少。如果原始变量本身相关性不是很大,降维效果自然不好

无关变量只能代表自己

根据什么来选择主成分?

特征根反映了主成分对原变量的影响程度,说明引入主成分可以解释原变量的信息

特征根又叫方差,某个特征根占总特征根的比例称为主成分方差贡献率

假设特征根为λ,则第i个主成分的方差贡献率为:【公式】

1根据主成分贡献率

一般来说,可以选择累积方差贡献率达到80%以上的前几个主成分作为最后的主成分

2根据特征根的大小

一般情况下,当特征值小于1时,不再选择作为主成分,因为主成分的解释力不如直接对原变量的解释力强

3spss画砾石图根据拐点确定主成分

如何解释主成分? 【加载图、加载矩阵、线性组合表达式】

主成分分析步骤:(总结以上步骤)

对原有的p指标进行标准化,消除变量对层次和维度的影响

根据标准化数据矩阵计算相关系数矩阵

求协方差矩阵的特征根和特征向量

确定主成分并对每个主成分中包含的信息给出适当的解释

什么是因子分析? 【简述主成分分析与因子分析的异同】

查尔斯·斯皮尔曼于 1904 年首次提出

类似于主成分分析,都需要找几个新的变量来代替原来的变量

区别:主成分分析中主成分的个数与原始变量的个数相同,即几个变量有几个主成分,但最终我们确定几个主成分。在因子分析中,需要预先确定几个分量,也称为因子,然后将原始变量综合成几个因子,再现原始变量与因子之间的关系。数量会比原始变量的数量少很多

因子分析可以看作是对主成分分析的推广和推广,但它对问题的研究更深入、更详细。其实主成分分析可以看成是因子分析的一个特例

通过对变量之间关系的研究,找出能够综合原始变量的少数几个因素,使少数几个因素能够反映原始变量的大部分信息,然后根据大小对原始变量进行分组的相关性,使得组内变量之间的相关性高,而不同组内变量之间的相关性低

属于多元统计中处理降维的一种统计方法。其目的是减少变量的数量,用几个因子来表示多个原始变量

因变量和因子个数的不一致,使得因子分析和主成分分析不仅在数学模型上存在差异,在实际求解过程中也存在差异,因子分析的计算更加复杂

因子分析的一个可能的优点是,在描述主成分与原变量之间的关系时,如果主成分的直观含义不明确且难以解释,则没有更好的方法来改进主成分分析;因子分析然后提供了一个额外的“因子轮换”步骤,可以使分析结果尽可能容易解释和更合理

因子分析的数学模型:

(共同衡量Community和公因子的方差贡献率)

因子分析步骤:

1、数据检查

因子分析需要足够数量的样本

一般要求样本数至少是变量数的5倍。同时,理论要求总样本数据量应大于100

用于因子分析的变量必须是相关的

如果原始变量是独立的,也就是说每个变量的作用是不可替代的,就无法实现降维

测试方法

计算变量之间的相关矩阵,观察相关系数。如果相关矩阵中的大部分相关系数都小于0.3,则不适合进行因子分析

使用 Kaiser-Meyer-Olkin 检验(简称 KMO 检验)和 Bartlett 的球形检验来判断(SPSS 将这两种检验称为“KMO 和 Bartlett 的球形检验”)

巴特利特球度检验

基于变量的相关系数矩阵,假设相关系数矩阵为单位矩阵(对角线元素不为0,非对角线元素均为0)。如果相关矩阵是单位矩阵,那么每个变量都是独立的,不能按因子分析

KMO 测试

用于检验变量间的偏相关性,KMO统计量在0到1之间

统计量越接近1,变量间的偏相关性越强,因子分析的效果越好

当KMO统计量在0.7以上时,因子分析效果好;当KMO统计量低于0.5时,因子分析的效果很差

2、因子提取

主成分(主成分法):这种方法在大多数情况下都可以使用(这也是SPSS的默认选项)。通过主成分分析的思想提取公因子,假设变量是因子的线性组合

未加权最小二乘:该方法最小化实际相关矩阵与重新生成的相关矩阵之间差异的平方和

Generalized Least Square(加权最小二乘法):用变量值加权,这种方法也是为了最小化实际相关矩阵与重新生成的相关矩阵之差的平方和

Maximum Likelihood(极大似然法):这种方法不要求数据服从正态分布,在样本量大的时候使用比较好

Principal Axis Factoring(主因子法):该方法从原始变量的相关性出发,使变量之间的相关程度尽可能用公因子来解释

因子个数的确定

用公因子方差贡献率提取:类似于主成分分析,累积方差贡献率达到80%以上的前几个因子可以作为最终的公因子

用特征根提取:一般要求因子对应的特征值大于1,因为特征值小于1,说明辅因子的解释力太弱,不与使用原始变量一样强大。

在实际应用中,因子的提取取决于具体问题,在一定程度上取决于研究人员自身的知识和经验

3、因子名称

因子命名是因子分析的重要一步

一个因子包含多个原始变量的信息。它反映了原始变量的哪些共同信息?

因子分析得到的因子含义不明确,需要重新命名,以便为研究问题提供合理的解释

可以通过考察观测因子载荷矩阵并结合实际问题来完成

命名不再是统计问题。需要研究者自身的专业素质和对实际问题背景的理解,需要更多的实践经验

观测因子加载矩阵

如果因子加载aij的绝对值在第i行多列有较大的值(通常大于0.5),说明原变量与多个因子有较大的相关性,即原始变量与多个因素有很大的相关性。变量xi需要多因素共同解释

如果因子加载aij的绝对值在第j列多行都有较大的值,那么表因子fi可以一起解释多个变量的信息,只能解释每个原始变量的信息。少量信息表明该因子不能有效表示任何原始变量,因子含义模糊,难以对因子给出合理解释

为了更合理的解释需要因子旋转

4、因子命名——旋转

因子轮换的目的是为了让因子的含义更加清晰,从而便于因子的命名和解释

旋转有两种方式:正交旋转和斜向旋转

正交旋转意味着轴总是垂直旋转90度,这样新生成的因子仍然可以保持不相关

倾斜旋转轴之间的角度可以是任意的,因此不能保证新生成的因子不相关。因此,在实际应用中更多地使用正交旋转

SPSS提供了5种旋转方法,最常用的是Varimax(方差最大正交旋转)法

Varimax(方差最大正交旋转):最常用的旋转方法。保持各因子处于正交状态,但尽量使各因子的方法最大化,即载荷的相对平方和最大,以利于因子的解释

Quartimax(Quartimax最大正交旋转):这种方法倾向于减少与每个变量相关的因子数量,从而简化对原始变量的解释

Equamax(平方最大正交旋转):这种方法介于方差最大正交旋转和四次方最大正交旋转之间

Direct Oblimin:该方法需要提前指定因子图像的自相关范围

Promax:该方法在方差最大的正交旋转的基础上进行斜向旋转

5、计算因子得分

因子得分是每个因子在每个样本上的具体值,由因子得分函数给出

几点说明:

主成分分析和因子分析都是多变量分析中处理降维的统计方法。只有当原始数据中的变量之间存在强相关性时,降维效果才会明显,否则不适合主成分分析和因子分析

主成分和因子的选择标准应根据具体问题确定。这在一定程度上取决于研究人员的知识和经验,而不是方法本身

即使得到满意的主成分或因子,在对实际问题进行评价、排序等分析时也要谨慎,因为主成分和因子毕竟是高度抽象的量,无论如何,它们的含义不如原变量清晰

因子分析可以看成是主成分分析的推广和延伸,而主成分分析可以看成是因子分析的一个特例。目前,因子分析在实践中应用广泛,而主成分分析通常仅作为大规模统计分析的中间步骤,几乎不再单独使用

什么是方差分析 (ANOVA)?

【基于R语言的参考统计】

ANOVA 的基本原理是在 1920 年代由英国统计学家 Ronald A. Fisher 在设计实验以解释实验数据时首次引入的

一种分析分类自变量对数值因变量影响的统计方法

研究分类自变量对数值因变量的影响

一个或多个分类参数

两个或更多 (k) 治疗水平或类别

数值因变量

有单向方差分析和双向方差分析

单向方差分析:涉及分类自变量

双向方差分析:两个分类自变量

聚类分析

在统计分类中,有的事先不知道存在哪些类别,根据反映对象特征的数据对对象进行分类,统计中称为聚类分析;有的事先有一定的分类标准后,确定一个新的研究对象应该属于哪一类,统计学上叫判别分析

什么是聚类分析?

将“对象”分为不同的类别

这些类不是预先给出的,而是根据数据的特性直接确定的

把相似的东西放在一起,使类别内的“差异”尽可能小,类别之间的“差异”尽可能大

聚类分析就是根据对象之间“相似”的程度对对象进行分类

聚类分析有两种分类方法? :

聚类分析的“对象”可以是多个观察到的样本,也可以是针对每个样本测量的多个变量

根据变量对观测样本进行分类称为Q型聚类

根据多个经济指标(变量)对不同区域(样本)进行分类

根据样本对多个变量进行分类称为R型聚类

根据不同地区的样本数据对多个经济变量进行分类

这两个集群之间没有本质区别。在实践中,人们更感兴趣的是根据变量对样本进行分类(Q型聚类)

聚类分析的分类是什么?

按“相似”程度对对象进行分类

根据样本的观测数据来衡量变量之间的相似程度,可以使用角余弦和皮尔逊相关系数等工具,也称为相似系数

变量之间的相似系数越大,越接近

使用“距离”根据变量来衡量样本之间的相似度

将距离较近的归为一类,距离较远的归为不同的类别

相似度的度量(样本点间距离的计算方法):

在对样本进行分类时,使用点之间的距离来衡量样本之间的相似度

计算点间距的主要方法如下

欧几里得距离

平方欧几里得距离

格挡距离

切比雪夫距离

明科夫斯基距离

最常用的是平方欧式距离

层次聚类:

层次聚类也称为系统聚类

不知道要提前分类多少类,但是先把每一个对象看成一个类,然后逐层分类

根据操作的方向,层次聚类方法分为合并法和分解法。两种方法的操作原理相同,但方向相反

层次聚类的合并方法:

将每个样本作为一个类,如果是k个样本,则将其划分为k个类

按照一定的方法测量样本之间的距离,将距离最近的两个样本合并为一个类别,从而形成k-1个类别

计算新生成的类别与其他类别的距离,将距离最近的两个类别合并为一个类别。这时候如果类别数还是大于1,继续重复此步骤,直到所有类别合并为一个类别

总是先合并两个最接近的类

分类越晚,距离越远

预先不指定要划分的类别数量,而是列出所有可能的类别,然后根据具体情况选择合适的类别结果

层次聚类的分解方法:

分解法的原理与合并法的原理相反

首先将所有对象(样本或变量)作为一个大类,然后测量对象之间的距离或相似度,将距离或相似度最远的对象分开,形成两个类别(其中一个类只有一个对象)

重新测量类别中剩余对象之间的距离或相似度,并将最远的对象分开。重复此过程,直到所有对象都属于自己的类

Calculation method of distance between classes:

In the hierarchical clustering method, when there are more than one category, it involves how to define the distance between two categories

There are many ways to calculate the distance between classes (different from the distance between points described above), and different methods will get different clustering results

The most commonly used method in practice is the Ward's method, also known as the Ward's method

K-means clustering?

Hierarchical clustering does not need to determine how many categories to be divided in advance. The clustering process is carried out layer by layer, and finally all possible category results are obtained. The researcher determines the final required category according to the specific situation. This method can draw a dendrogram, which is convenient for users to select categories intuitively, but its disadvantage is that the amount of calculation is large and the clustering efficiency of large batches of data is not high

K-means clustering needs to determine the category data to be divided in advance, the amount of calculation is much smaller, and the efficiency is higher than that of hierarchical clustering,

Also known as quick cluster

The steps of K-means clustering [Briefly describe the basic steps of k-means clustering]?

Step 1: Determine the number of categories K to be divided into

It needs to be determined by the researchers themselves

In practical applications, researchers often need to try repeatedly according to actual problems to obtain different classifications and compare them to obtain the final number of classifications

Step 2: Determine the initial cluster centers of the K categories

In all the samples used for clustering, K samples are required to be selected as the initial clustering centers of the K categories

Similar to determining the number of categories, the determination of the original cluster center also requires researchers to comprehensively consider based on practical problems and experience

When using SPSS for clustering, the system can also automatically specify the initial cluster center

Step 3: According to the determined K initial cluster centers, calculate the Euclidean distance from each sample to the K cluster centers in turn, and divide all samples into the pre-determined K according to the principle of the closest distance in categories

Step 4: Calculate the mean value of each variable in each category according to the K categories divided, and use the mean point as the center of the new K categories. According to the new center position, recalculate the distance of each sample to the new center, and reclassify

Step 5: Repeat step 4 until the termination clustering condition is met

The number of iterations reaches the maximum number of iterations specified by the researcher in advance (the number of iterations implied by SPSS is 10)

The maximum offset between the newly determined cluster center point and the center point formed by the previous iteration is less than the specified amount (0.02 is implied by SPSS)

The K-means clustering method iterates repeatedly according to the pre-determined K categories until each sample is divided into the specified category. The determination of the number of categories is subject to a certain degree of subjectivity. How many categories are appropriate depends on the researcher's understanding of the research problem, relevant knowledge and experience.

Notes on cluster analysis:

In addition to hierarchical clustering and K-means clustering, there are many new clustering methods, such as; TwoStep Cluster (SPSS provides the program for this clustering method), Spectral clustering, density clustering, etc.

Regardless of the classification method, how many categories should be divided into is not entirely determined by the method itself, but should be determined by the researcher based on specific problems

Cluster analysis is an exploratory data analysis method. Using different classification methods for the same data may result in different classification results. There is no right or wrong in the classification results, but the classification standards are different

When using the clustering method, the purpose of the classification must be clearly defined first, and then the selection of which variables (or data) to participate in the classification should be considered, and finally the choice of the method should be considered. Whether the classification results are reasonable and how to interpret them depends more on the researcher's understanding of the research problem, relevant background knowledge and experience

From the point of view of data requirements

The variables involved in the classification should first meet the requirements

The value of each variable should not have too much difference in order of magnitude, otherwise it will have a great impact on the classification result. At this time, it is necessary to standardize the variables (in the hierarchical clustering method provided by SPSS, you can choose to standardize the variables during clustering, while the K-means clustering method needs to be standardized separately, and then clustering)

There should be no strong correlation between variables. If two strongly correlated variables participate in cluster analysis at the same time, their contribution will be increased when measuring distance, while other variables will be relatively weakened

Pay attention to the inspection of classification results

Whether the classification result is reasonable depends on whether it is "useful", but whether the classification result is reliable and stable requires repeated clustering and comparison

In general, in the divided categories, the number of objects (samples or variables) contained in each category should be roughly the same. At least it looks a bit prettier on the surface

Discriminant Analysis: [Briefly describe the difference between discriminant analysis and cluster analysis]

Assuming that some implicit standard is obtained earlier based on the information of the training samples, then the samples to be judged can be discriminated according to this standard: the samples to be judged are classified into different "classes".

The difference from cluster analysis is that discriminant analysis knows the category of training samples and belongs to supervised learning, while clustering does not know any sample category and belongs to unsupervised learning.

This kind of discrimination is essentially a prediction behavior, the difference is that the prediction is based on a formulaic model, and the discrimination is based on an unformulated implicit relationship (the correspondence between the classification result of the training sample and the value of the discriminant variable) ).

Methods of discrimination: distance discrimination, Bayes discrimination, Fisher discrimination,

Regression model with qualitative variables:

1 Regression model where the dependent variable is a qualitative variable

2 Logistic regression

3 Multiclass Logistic Regression

4 Regression where the dependent variable is an ordinal variable

Multiple regression model:

Regression of one dependent variable and two or more independent variables

The equation describing how the dependent variable y depends on the independent variables x1 , x3 ,..., xk and the error term ε is called a multiple regression model

The multiple linear regression model involving k independent variables can be expressed as:

Multiple regression model

β0 , β1 , β3 , ?, βk are parameters

ε is a random variable called the error term

y is a linear function of x1,, x3, ?, xk plus error term ε

ε is the variability contained in y but not explained by the linear relationship of the k independent variables

Basic assumptions of multiple regression models:

Normality. The error term ε is a random variable obeying a normal distribution, and the expected value is 0, that is, ε~N(0,σ2)

Equal variance. The variance σ 2 of ε is the same for all values ​​of the independent variables x1, x3,...,xk

Independence. For a specific set of values ​​of the independent variables x1, x3, ..., xk, its corresponding ε is irrelevant to any set of other values.

Equations for estimated multiple linear regression:

The equation obtained when the parameter in the regression equation is estimated using the sample statistic

It is obtained by the least square method [the formula can be solved with the help of a computer]

Goodness of fit and significance test:

1, Multiple Judgment Coefficient (Modified Multiple Judgment Coefficient)

The ratio of regression sum of squares to total sum of squares

The proportion of the variation in the value of the dependent variable that can be explained by the estimated multiple regression equation

2, multiple correlation coefficient

3, estimated standard error

Multicollinearity

What is multicollinearity?

Two or more independent variables in a regression model are correlated with each other

A problem with multicollinearity?

May confuse the results of the regression and even lead the analysis astray

It may affect the sign of the parameter estimates, especially the sign of each regression coefficient may be opposite to the expected sign

Identification of multicollinearity?

The easiest way to detect multicollinearity is to calculate the correlation coefficient between each pair of independent variables in the model and test the significance of each correlation coefficient

If one or more correlation coefficients are significant, it means that the independent variables used in the model are correlated, and there is multicollinearity

3、 If the following conditions occur, it implies multicollinearity

There is a significant correlation between each pair of independent variables in the model

While the linear relationship test (F test) of the model is significant, the t test of almost all regression coefficients is not significant

回归系数的正负号与预期的相反

容忍度(tolerance)与方差扩大因子(variance inflation factor,VIF)。

某个自变量的容忍度等于1减去该自变量为因变量而其他k-1个自变量为预测变量时所得到的线性回归模型的判定系数,即1-Ri2、容忍度越小,多重共线性越严重。通常认为容忍度小于0.1时,存在严重的多重共线性

方差扩大因子等于容忍度的倒数,即 。显然,VIF越大多重共线性就越严重。一般要求VIF小于5,也可放宽到小于2、如果大于10则认为存在严重的多重共线性。

多重共线性的处理?

1.将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关

2.如果要在模型中保留所有的自变量,则应避免根据 t 统计量对单个参数进行检验对因变量值的推断(估计或预测)的限定在自变量样本值的范围内

在建立回归模型时,对自变量进行筛选

选择自变量的原则是对统计量进行显著性检验

将一个或一个以上的自变量引入到回归模型中时,是否使得残差平方和(SSE)有显著地减少。如果增加一个自变量使SSE的减少是显著的,则说明有必要将这个自变量引入回归模型,否则,就没有必要将这个自变量引入回归模型

确定引入自变量是否使SSE有显著减少的方法,就是使用F统计量的值作为一个标准,以此来确定是在模型中增加一个自变量,还是从模型中剔除一个自变量

变量选择的方法主要有:向前选择、向后剔除、逐步回归、最优子集等

  • 声明:本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,以上内容仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站内容来自网络收集整理或网友投稿,所提供的下载链接也是站外链接,版权争议与本站无关。您必须在下载后的24个小时之内,从您的设备中彻底删除上述内容。如果您喜欢该程序和内容,请支持正版!我们非常重视版权问题,如有侵权请邮件与我们联系处理。敬请谅解!邮箱:121671486@qq.com,微信:diqiuren010101

学习考试资源网-58edu © All Rights Reserved.  湘ICP备12013312号-3 
站点地图| 免责说明| 合作请联系| 友情链接:学习乐园