空调机组报价预测——基于线性回归的数据分析案例
来源:CPDA数据分析师 贵州 郑雨 / 作者: / 时间:2019-12-18
导论:
建设项目的工程费用中,占比的费用通常是主材设备费,主材设备价格的合理性直接决定了工程费用的合理性。在日常工程造价工作中如何改善主材设备价格管理水平,是提高工作效率和质量的重要环节。
背景
|
|
|
|
从工程成本管理角度讲,直接费作为直接构成工程实体项目的现金流出,是建安工程费的重要组成部分,其中直接工程费又是直接费中的核心内容。
材料费,视具体工程项目情况,在工程费用中占比约为45%~70%,尤其在安装工程费用占比大的项目,这个比例更高。材料费的取定,除了定额基价中已经确定的材料价格外,很大一部分需要结合市场和项目需求自主定价。
为了取得较为准确的材料价格信息,造价咨询方需要向厂家、经销商询价。这部分工作,尤其是涉及到安装工程的主材设备询价,工作量常常是巨大的。
例如一个含有强弱电、消防、空调、通风、给排水等常规系统的建筑工程项目,仅安装部分不同类型的主材设备数量就可能在600种以上;一个星级酒店,安装部分不同类型的主材设备数量可能超过3000种。询价、接受和辨别主材设备报价,是一个繁琐而细致的工作。
如何更好的开展这项具体工作,使我们采用的主材设备价更为准确、合理,并能在厂商报价基础数据资料上发掘新的信息,是一个有价值的问题。
思考
笔者主要从事安装造价工作,在清单拦标价编制和全过程造价控制工作中,经常面对数以百计的主材设备需要确价。除了很少一部分能在造价信息上找到较有权威性的参考价格之外,其他绝大多数主材设备,都需要通过询价自主定价。
在明确项目定位和业主意图的基础上,主要的定价方式如下:
- 参考企业近期类似工程材料价格
- 参考互联网第三方网站材料信息
- 发布询价函,提请厂家或供货商针对项目报价
由于工程项目具有单件性特点,针对具体项目的厂商询价一般较为准确,且更具有说服力。
然而实际工作中,往往由于工作任务时间急迫,无法逐一针对眼前项目的主材设备进行全面询价,必须充分利用以往的询价成果对新出现的主材设备进行推断预测。
实践探索
(1)推断预测方法的确定
根据设计原理及工作经验,组合空调机组的价格,主要与风量、制冷量、电机功率三个自变量呈线性相关关系。
想要通过上述三个自变量推断价格这个一因变量,无疑应该用多元线性回归分析。
(2)基础数据收集
某项目需要采购组合式空调机组一台,参数要求如表一:
表一:待询价设备参数要求
近期已询价项目,该品牌报价如表二:
表二:已报价设备信息
以“近期已报价设备信息”作为训练集,试构建模型,并推断待询价设备“含税报价”。
(3)查看变量关系
采用多元线性规划有一个前提,就是验证自变量间是否有相关性。
如果自变量间存在较强的相关性,则会产生多重共线性问题,容易导致回归结果混乱,不能合理解释变量间逻辑关系等问题,影响推断预测的准确性。
如果自变量间没有明显的相关性,则可以进行多元线性回归分析。
以“风量”、“制冷量”、“电机功率”三个自变量及“含税报价”因变量,计算相关矩阵系数结果如图一:
图一:三变量相关性热力图
由图可知:自变量“电机功率”与因变量“含税报价”相关性不明显,可以剔除此自变量。以“风量”、“制冷量”、两个个自变量及“含税报价”因变量,并计算相关矩阵系数结果如表三:
表三:两自变量相关性矩阵
由表可知:自变量“风量”与“制冷量”间,存在较强的相关性,为防止产生多重共线性问题,接纳与因变量“含税报价”相关性强的自变量“风量”,将“制冷量”剔除。
(4)构建回归模型
已“风量”为自变量、“含税报价”为因变量,构建一元线性回归模型,结果如下:
表四:单变量一元线性回归模型结果
由表四可知:
自变量“风量”系数2.131278422,常数项系数8353.165893。
自变量“风量”与常数项P值(t检验)均<0.05,通过检验;模型R方0.9847,拟合效果好,模型可以采纳应用。
已此模型预测价格与实际报价比较,误差均<±10%,对设备价格推断预测具有一定价值,如下表五:
表五:模型预测误差率统计表
(5)推断预测
将待报价设备(见表一)作为预测集,引入上述回归模型进行设备价格预测,结果如表六:
表六:模型预测结果
由表可知:待报价设备预测价格为72291.52元。
为验证报价水平,再次向厂商询价此设备,报价为69954.00元,模型预测误差率为3.34%。
结论
运用线性回归分析处理单一变量或多变量的主材设备价格推断预测问题,在合理选择变量、预先排除多重共线性影响的前提下,可以得到较好的预测效果,从而提高询价报价效率,保证报价质量水平。
应用条件
需要注意的是,用此种方法虽然可以快速得到所需主材设备的近似报价,但也有一定先决条件。
-
同品牌同类型主材推断
主材设备除规格外的材质、类型、型号要求必须一致; -
合理的时效性
由于建筑材料均具有一定的时效性,推断主材设备报价时,要特别注意基础数据采集的时间与推断时刻间材料价格在市场上是否有波动; -
合理的自变量范围
由于在实际的生产制作中,风口规格不是没有上限的,极端大小的风口规格可能和一般常见规格尺寸存在较大的价格差异,有的产品甚至需要单独开模制作,厂商报价不一定都是呈现明显线性变化的。这就导致我们不能忽略用来推断的方程中,构造方程自变量X的取值范围。因为更大或更小的规格尺寸,并不知道该厂商是否能够生产,且不知道厂商报价是否还是在同一水平上。 -
相应的采购规模
由于订货规模对厂商的报价也是一个敏感性因素,有必要记录构造函数时的报价批量信息。如果采购数量与以往偏差较大,也要考虑使用模型函数进行推断的准确性。应用时,宜在推断基础上加以适当调整。
启发与备注:
数据分析不是外行看似望而生畏的建模技术,不是一味追求高级算法的炫技表演,而是要在产业环境下、业务场景中,运用数据思维发现工作中的“真北问题”(真正的痛点并且具有指向性可量化的问题),并用可以量化的“数据语言”提出问题,采用简单合适的方法解决问题,进而产生效益。
关于本文尚需备注以下信息:
(1)训练集设备报价时间为2019年7月24日,来源为“建材在线”网站信息价
(2)文中提及的预测误差率=(预测价-报价)/报价*100%
(3)采用Datehoop2.0数据分析平台提供计算支持