商业智能BI产品更多介绍:https://www.smartbi.com.cn/
商业智能BI产品更多介绍:点击前往
这是建模的第一步,需要基于业务问题,来决定可以选择哪些可用的模型。比如,建立支付风险控制模型,可以选择决策树模型,也可以选择评分模型。如果没有现成的模型可用,你需要自定义模型,也可以聘请专家教授设计模型。
当模型选择好了以后,就要训练模型。所谓训练模型,就是基于真实的业务数据来确定最合适的模型参数。一旦找到最优参数,模型就可以用了。
找到最优的模型参数,需要依赖于算法。常见的算法有分类(有明确类别)、聚类(无明确类别)、关联、回归等。常见的分类算法有KNN算法(k-近邻算法)、贝叶斯算法、决策树、人工神经网络和支持向量机。
模型训练好以后,接下来就是评估模型。评估模型,就是决定模型的质量,判断模型是否有用。
模型的好坏是不能够单独评估的,一个模型的好坏需要放在特定的业务场景下来评估,也就是基于特定的数据集下才能知道哪个模型好与坏。
评估一个模型好坏,通常需要设置一些评价指标。比如,数值预测模型中,评价模型质量的常用指标有平均误差率、判定系数R2等等;评估分类预测模型质量的常用指标有正确率、查全率、查准率、ROC曲线和AUC值等等。对于分类预测模型,一般要求正确率和查全率等越大越好,最好都接近100%,表示模型质量好,无误判。
值得注意的是,在真实的业务场景中,评估指标是基于测试集的,而不是训练集。所以,在建模时,务必将原始数据集分成两部分:一部分用于训练模型,即训练集;另一部分用于评估模型,叫测试集或验证集。
为什么评估模型要用两个不同的数据集?这是因为模型是基于训练集构建起来的,从理论上讲模型在训练集上肯定有较好的效果;但在真实的业务应用场景下其预测效果不一定好(这种现象称之为过拟合)。因此,我们需要将训练集、测试集分开来,一个用于训练模型,一个用于评估模型,以便提前发现模型是不是存在过拟合。
如果发现在训练集和测试集上的预测效果差不多,表示模型质量尚好,可以直接使用。如果发现训练集和测试集上的预测效果相差太远,说明模型需要优化。
要特别注意的是,只想验证一次就想准确评估出模型的好坏是不合适的,还需要采用交叉验证的方式进行多次评估,以便找到准确的模型误差。
如果评估模型质量在可接受的范围内,且没有出现过拟合,就可以开始应用模型了。这一步,需要将可用的模型开发出来,部署在数据分析系统中,形成数据分析的模板和可视化的分析结果,以便实现自动化的数据分析报告。
模型应用,就是将模型应用于真实的业务场景。建模的目的是用于解决工作中的业务问题,如信贷智能审批等。应用模型过程中,要持续收集业务预测结果与真实的业务结果,以检验模型在真实的业务场景中的效果,同时用于后续模型的优化。
如果发生以下两种情况,就需要模型优化:(1)评估模型中,如出现模型欠拟合,或者过拟合,说明这个模型待优化;(2)在真实应用场景中,定期进行优化,或者当发现模型在真实的业务场景中效果不好时,也要启动优化。模型优化,可以有以下四种情况:
1.重新选择一个新的模型;
2.模型中增加新的考虑因素;
3.尝试调整模型中的阈值到最优;
4.尝试对原始数据进行更多的预处理,如派生新变量。
不同的模型,其模型优化的具体做法也不一样。如回归模型的优化,可以考虑异常数据对模型的影响,也要进行非线性和共线性的检验;再如分类模型的优化,主要是一些阈值的调整,以实现精准性与通用性的均衡。也可以采用元算法来优化模型,就是通过训练多个弱模型,来构建一个强模型来实现模型的最佳效果。
值得注意的是,不可能有一个模型适用于所有业务场景,也不太可能有一个固有的模型就适用于你的业务场景。好模型都是优化出来的。
更聪明的大数据分析软件,快速挖掘企业数据价值!
最新上架
麦粉市场集合了海量可视化大屏模板,会员可下载到本地使用物业大数据分析平台
【最新】人力资源(HR)应用 【最热】公司总体薪酬分析银行风险管理
【最新】集团项目管理应用 【最热】银行经营分析电网大数据分析平台
【最新】销售营销应用模板 【最热】房地产经营运营应用电话:
邮箱: