当前位置:中国站长下载文章中心网页编程PHP编程 → PHP实现简单线性回归之数据研究工具

PHP实现简单线性回归之数据研究工具

减小字体 增大字体 作者:编辑整理  来源:互联网  发布时间:2008-9-15 22:05:04
了演示如何使用数据研究工具,我将使用来自假想的火灾损失研究的数据。这个研究将主要住宅区火灾损失的金额与它们到最近消防站的距离关联起来。例如,出于确定保险费的目的,保险公司会对这种关系的研究感兴趣。

该研究的数据如图1中的输入屏幕所示。

图1.显示研究数据的输入屏幕


数据被提交之后,会对它进行分析,并显示这些分析的结果。第一个显示的结果集是TableSummary,如图2所示。

图2.TableSummary是所显示的第一个结果集


TableSummary以表格形式显示了输入数据和其它列,这些列指出了对应于观测值X的预测值YY值的预测值和观测值之间的差以及预测Y值置信区间的下限和上限。

图3显示了TableSummary之后的三个高级别数据汇总表。

图3.显示了TableSummary之后的三个高级别数据汇总表


AnalysisofVariance表显示了如何将Y值的偏离值归为两个主要的偏离值来源,由模型解释的方差(请看Model行)和模型不能解释的方差(请看Error行)。较大的F值意味着该线性模型捕获了Y测量值中的大多数偏离值。这个表在多次回归环境中更有用,在那里每个独立变量都在表中占有一行。

ParameterEstimates表显示了估算的Y轴截距(Intercept)和斜率(Slope)。每行都包括一个T值以及观测到极限T值的概率(请看Prob>T列)。斜率的Prob>T可用于否决线性模型。

如果T值的概率大于0.05(或者是类似的小概率),那么您可以否决该无效假设,因为随机观测到极限值的可能性很小。否则您就必须使用该无效假设。

在火灾损失研究中,随机获得大小为12.57的T值的概率小于0.00000。这意味着对于与该研究中观测到的X值区间相对应的Y值而言,线性模型是有用的预测器(比Y值的平均值更好)。

最终报告显示了相关性系数或R值。可以用它们来评估线性模型与数据的吻合程度。高的R值表明吻合良好。

每个汇总报告对有关线性模型和数据之间关系的各种分析问题提供了答案。请查阅Hamilton、Neter或Pedhauzeur编写的教科书,以了解更高级的回归分析处理。

要显示的最终报告元素是数据的分布图和线图,如图4所示。

图4.最终报告元素—分布图和线图


大多数人都熟悉线图(如本系列中的第一幅图)的说明,因此我将不对此进行注释,只想说JPGraph库可以产生用于Web的高质量科学图表。当您输入分布或直线数据时,它也做得很好。

第二幅图将残差(观测的Y、预测的Y)与您预测的Y值关联起来。这是研究性数据分析(ExploratoryDataAnalysis,EDA)的倡导者所使用的图形示例,用以帮助将分析人员对数据中的模式的检测和理解能力提到最高程度。行家可以使用这幅图回答关于下列方面的问题:
  • 可能的非正常值或影响力过度的例子
  • 可能的曲线关系(使用转换?)
  • 非正态残差分布
  • 非常量误差方差或异方差性
可以轻松地扩展这个数据研究工具,以生成更多类型的图形—直方图、框图和四分位数图—这些都是标准的EDA工具。

数学库体系结构

对数学的业余爱好使我在最近几个月中保持着对数学库的浓厚兴趣。此类研究推动我思考如何组织我的代码库以及使其预期在未来能不断增长。

我暂时采用清单5中的目录结构:

清单5.易于增长的目录结构
phpmath/burnout_study.phpexplore.phpfire_study.phpnavbar.phpdist/Distribution.phpfisher.phpstudent.phpsource.phpjpgraph/etc...slr/SimpleLinearRegression.phpSimpleLinearRegressionHTML.phptemp/

例如,未来有关多次回归的工作,将涉及扩展这个库以包括matrix目录,该目录用来容纳执行矩阵操作(这是对于更高级形式的回归分析的需求)的PHP代码。我还将创建一个mr目录,以容纳实现多次回归分析输入方法、逻辑和输出方法的PHP代码。

请注意这个目录结构包含一个temp目录。必须设置该目录的许可权,使explore.php脚本能够将输出图写到该目录。在尝试安装phpmath_002.tar.gz源代码时请牢记这一点。此外,请在JpGraph项目网站上阅读安装JpGraph的指示信息(请参阅参考资料)。

最后提一点,如果采取以下作法,可以将所有软件类移到Web根目录之外的文档根目录:
  • 使某个全局PHP_MATH变量有权访问非Web根目录位置,并且
  • 确保在所有需要或包括的文件路径前面加上这个已定义的常量作为前缀。
将来,对PHP_MATH变量的设置将通过一个用于整个PHP数学库的配置文件来完成。

您学到了什么?

在本文中,您了解了如何使用SimpleLinearRegression类开发用于中小规模的数据集的数据研究工具。在此过程中,我还开发了一个供SimpleLinearRegression类使用的本机概率函数,并用HTML输出方法和基于JpGraph库的图形生成代码扩展该类。

从学习的角度来看,简单线性回归建模是值得进一步研究的,因为事实证明,它是理解更高级形式的统计建模的必由之路。在深入学习更高级的技术(如多次回归或多变量方差分析)之前,对于简单线性回归的透彻理解将使您受益匪浅。

即使简单线性回归只用一个变量来说明或预测另一个变量的偏离值,在所有的研究变量之间寻找简单线性关系仍然常常是研究性数据分析的第一步。仅因为数据是多元的并不意味着就必须使用多元工具研究它。实际上,在开始时使用简单线性回归这样的基本工具是着手探究数据模式的好方法。

上一页  [1] [2] [3]