五步数据建模法

文 | Smartbi大数据百科 2021-06-16 阅读次数:7570 次浏览

商业智能BI产品更多介绍:https://www.smartbi.com.cn/

商业智能BI产品更多介绍:点击前往

    数据建模的步骤(一)选择模型或自定义模型

    这是建模的第一步,需要基于业务问题,来决定可以选择哪些可用的模型。比如,建立支付风险控制模型,可以选择决策树模型,也可以选择评分模型。如果没有现成的模型可用,你需要自定义模型,也可以聘请专家教授设计模型。

    数据建模的步骤(二)训练模型

    当模型选择好了以后,就要训练模型。所谓训练模型,就是基于真实的业务数据来确定最合适的模型参数。一旦找到最优参数,模型就可以用了。

    找到最优的模型参数,需要依赖于算法。常见的算法有分类(有明确类别)、聚类(无明确类别)、关联、回归等。常见的分类算法有KNN算法(k-近邻算法)、贝叶斯算法、决策树、人工神经网络和支持向量机。

    数据建模的步骤(三)评估模型

    模型训练好以后,接下来就是评估模型。评估模型,就是决定模型的质量,判断模型是否有用。

    模型的好坏是不能够单独评估的,一个模型的好坏需要放在特定的业务场景下来评估,也就是基于特定的数据集下才能知道哪个模型好与坏。

    评估一个模型好坏,通常需要设置一些评价指标。比如,数值预测模型中,评价模型质量的常用指标有平均误差率、判定系数R2等等;评估分类预测模型质量的常用指标有正确率、查全率、查准率、ROC曲线和AUC值等等。对于分类预测模型,一般要求正确率和查全率等越大越好,最好都接近100%,表示模型质量好,无误判。

    值得注意的是,在真实的业务场景中,评估指标是基于测试集的,而不是训练集。所以,在建模时,务必将原始数据集分成两部分:一部分用于训练模型,即训练集;另一部分用于评估模型,叫测试集或验证集。

    为什么评估模型要用两个不同的数据集?这是因为模型是基于训练集构建起来的,从理论上讲模型在训练集上肯定有较好的效果;但在真实的业务应用场景下其预测效果不一定好(这种现象称之为过拟合)。因此,我们需要将训练集、测试集分开来,一个用于训练模型,一个用于评估模型,以便提前发现模型是不是存在过拟合。

    如果发现在训练集和测试集上的预测效果差不多,表示模型质量尚好,可以直接使用。如果发现训练集和测试集上的预测效果相差太远,说明模型需要优化。

    要特别注意的是,只想验证一次就想准确评估出模型的好坏是不合适的,还需要采用交叉验证的方式进行多次评估,以便找到准确的模型误差。

    数据建模的步骤(四)应用模型

    如果评估模型质量在可接受的范围内,且没有出现过拟合,就可以开始应用模型了。这一步,需要将可用的模型开发出来,部署在数据分析系统中,形成数据分析的模板和可视化的分析结果,以便实现自动化的数据分析报告。

    模型应用,就是将模型应用于真实的业务场景。建模的目的是用于解决工作中的业务问题,如信贷智能审批等。应用模型过程中,要持续收集业务预测结果与真实的业务结果,以检验模型在真实的业务场景中的效果,同时用于后续模型的优化。

    数据建模的步骤(五)优化模型

    如果发生以下两种情况,就需要模型优化:(1)评估模型中,如出现模型欠拟合,或者过拟合,说明这个模型待优化;(2)在真实应用场景中,定期进行优化,或者当发现模型在真实的业务场景中效果不好时,也要启动优化。模型优化,可以有以下四种情况:

    1.重新选择一个新的模型;

    2.模型中增加新的考虑因素;

    3.尝试调整模型中的阈值到最优;

    4.尝试对原始数据进行更多的预处理,如派生新变量。

    不同的模型,其模型优化的具体做法也不一样。如回归模型的优化,可以考虑异常数据对模型的影响,也要进行非线性和共线性的检验;再如分类模型的优化,主要是一些阈值的调整,以实现精准性与通用性的均衡。也可以采用元算法来优化模型,就是通过训练多个弱模型,来构建一个强模型来实现模型的最佳效果。

    值得注意的是,不可能有一个模型适用于所有业务场景,也不太可能有一个固有的模型就适用于你的业务场景。好模型都是优化出来的。

申请试用 了解更多

2024年度精选《思迈特制造行业BI最佳实践合集》

立即下载
Copyright© 广州思迈特软件有限公司  粤ICP备11104361号

电话咨询

售前咨询
400-878-3819 转1

售后咨询
400-878-3819 转2
服务时间:工作日9:00-18:00

微信咨询

添加企业微信 1V1专属服务