沁湖学术回顾丨第10期 大数据背景下高维数据的热点研究

发布者:王方方 发布时间:2022-10-17 浏览次数:11

10月11日,广东财经大学数字经济学院学术系列活动第10期之数字经济学讲座顺利进行。广东财经大学林海明教授就“大数据背景下高维数据的热点研究——基于SPSS软件的因子与主成分的异同”为题展开讲座,讲座由广东财经大学数字经济学院副院长王方方主持。本次讲座以线上方式进行同步直播,共有2500多人参与。


林海明在讲座中表示,大数据背景下的问题,许多都是高维数据的问题,他们都需要简化(降维)并能解释数据。他还举出了成年男性服装标准问题、脑机接口问题、轿车品牌产品设计问题、经济全球化问题等。


林海明强调,这些问题通过因子或主成分降维后,能找出解决问题的主要因素及其规律,制定出解决问题的更好方案和决策,否则许多情况下很难解决问题。关于因子与主成分的异同问题,国际一流统计学家Rao认为是令人非常感兴趣的。他结合因子分析最优解研究的结论是:差异:因子目的是降维、合理解释变量;主成分目的是降维;因子与主成分的方差不同;因子能旋转,有初始因子和旋转后因子,主成分不能旋转。关系:初始因子载荷阵是变量与主成分的相关阵,因子是前m个标准化主成分或其旋转。并对因子分析原模型的不足、SPSS软件的缺陷,提出了改进的建议。


林海明指出,因子与主成分的应用达到了万紫千红、山花烂漫、满山遍野的状况,明白因子与主成分的差异、关系、作用的情况下,能正确、更好地使用因子与主成分。


林海明教授长期持续关注多元统计模型与应用等领域 :


  • 1982年建立了Lr-(广义Vandermonde)行列式理论;

  • 2005年论文基本解决了国际一流统计学家C.R.Rao认为非常令人感兴趣的主成分与因子异同问题,现引用达1061次以上,列权威期刊《统计研究》引用排名第二;

  • 2007年论文解决了英国统计学家、数学家Kendall认为不可能解决的因子分析原模型解问题;

  • 2006-2013年建立了具有优良性的因子分析改进模型及其最优解;

  • 2013年论文解决了主成分解释数据的条件问题,迄今引用达832次以上,列权威期刊《统计研究》引用排序第四;

  • 2018年论文改进了Benzécri的对应分析法。他的主成分分析、因子分析内容已写入教育部高等学校统计学专业教学指导委员会推荐教材《应用多元统计分析》(朱建平主编,北京大学出版社,2017),许多高校已使用或正在使用这些内容给相应专业的本科生、硕士生及博士生进行教学。