智能BI平台 AI

大部分的数据科学家专心学习于分析的技术方面。他们不能通过使用不同的可视化技术理解数据，即那些可以令他们更快获得洞察力的技术。如果数据科学家不能选择合适的可视化发展模型，监控探索性数据分析和表示结果，那么即使是最好的机器学习模型，它的价值也会被稀释。事实上，许多数据科学家根据他们的审美选择图表类型,而不是考虑数据集的特征。这个可以通过定义可视化的目标避免。

即使数据科学家开发了一个最优秀和最好的机器学习模型，它也不会大叫说“尤里卡”——所有这些所需要的是结果的有效可视化，可以理解数据模式的不同，和意识到它的存在可以被利用来获得商业成果。常言道“一张图片胜过1000个单词。”——数据科学家不仅要熟悉自己常用的数据可视化工具,也要理解数据有效可视化的原理，用令人信服的方式获得结果。

解决任何数据科学问题的至关重要一步,就是要获得该数据是关于什么的洞察力,通过丰富的可视化表达，可以形成分析基础和建立相应模型。

没有选择适当的模型-验证周期

科学家认为，建立了一个成功的机器学习模型，就是获得了最大程度的成功。但是，这只是成功了一半，它必须要确保模型的预测发挥作用。许多数据科学家经常忘记或者倾向性的忽视这样的事实，就是他们的数据必须在指定的时间间隔进行反复验证。

一些数据科学家经常犯的一个普遍性错误：如果和观察到的数据吻合，就认为预测模型是理想的。已建立的模型的预测效果可以因为模型的关系在不断变化而瞬间消失。为了避免这种情况,数据科学家最好的解决方式就是每个小时都对含有新数据的数据模型进行评分，或者基于模型的关系变化快慢逐日逐月评分。

由于几个因素，模型的预测能力往往会变弱,因此数据科学家需要确定一个常数，用以确保模型的预测能力不能低于可接受的水平。有实例即数据科学家可以重建数据模型。能建立几个模型和解释变量的分布总是更好的，而不是考虑单个模型是最好的。

为了保留已建模型的预测效果和有效性，选择迭代周期是非常重要的，如果做不到，可能会导致错误的结果。

无问题/计划的分析

数据科学的最高级用途就是设计实验,提出正确的问题和收集正确的数据集，一切工作都要根据科学的标准。然后你将获得结果，并解释它。

数据科学是一个结构化的过程,以明确的目标开始，随后出现一些假设的问题,最终实现我们的目标。数据科学家往往站在数据之上而不考虑那些需要分析回答的问题。数据科学项目必须要有项目目标和完美的建模目标。数据科学家们如果不知道他们想要什么——最终得到的分析结果将会是他们不想要的。

大多数数据科学项目最终是回答“是什么”的问题,这是因为数据科学家通过手头的问题作分析而不遵循做分析的理想路径。数据科学是使用大数据回答所有关于“为什么”的问题。数据科学家应该通过整合以前未被整合的数据集，主动分析给与的数据集，回答以前没人解答的问题。

为了避免这种情况，数据科学家应该集中精力获得正确的分析结果，这可以通过明确实验，变量和数据准确性和清晰明白他们想要从数据中获得什么实现。这将简化以往通过满足假设的统计方法来回答商业问题的过程。引用伏尔泰的一句话——“判断一个人，是通过他的问题而不是他的答案。”——先确定明确的问题是及其重要的，能够实现任何企业的数据科学目标。

仅关心数据

根据博思艾伦咨询公司的数据科学家Kirk Borne，“人们忘记在数据的使用，保护以及统计产生的问题如认为相关关系就是因果关系会产生伦理问题。人们忘记了如果你处理的数据足够长，它就会告诉你任何事，如果你有大量的数据，那么你就可以找到相关关系。如果人们拥有大数据他们会相信他们看到的任何事情”。

数据科学家常常因为得到来自多个数据源的数据而兴奋,并开始创建图表和可视化来做分析报告，忽视发展所需的商业智慧。这对任何组织来说都是危险的事情。数据科学家经常给与数据太多决策制定的权力。

他们不够重视发展自身商业智慧，不明白分析如何令企业获益。数据科学家应该不仅仅让数据说话，而且善于运用自身的智慧。数据应该是影响决策的因素而不是数据科学项目决策制定的最终声音。企业雇佣的数据科学家应该是可以将领域知识和技术特长结合起来的，这是避免错误的理想情况。

忽视可能性

数据科学家经常倾向性忘记方案的可能性，这将导致作出更多的错误决策。数据科学家经常犯错，因为他们经常说，如果企业采取了X操作一定会实现Y目标。对于特定的问题这没有唯一的答案，因此要确认数据科学家从不同可能性中所做的选择。对指定问题存在不止一个可能性，它们在某种程度是不确定的。情景规划和可能性理论是数据科学的两个基本核心，不应该被忽视，应该用以确认决策制定的准确性频率。

建立一个错误人口数量的模型

如果一个数据项目的目的是建立一个客户影响力模式的模型，但是他们仅仅考虑那些具有高度影响力的客户的行为数据，这不是对的做法。建立该模型不仅要考虑那些具有高度影响力的客户的行为数据，也要考虑那些不怎么有影响力但是具有潜在影响力的客户的行为数据。低估任何一边人口的预测力量都可能导致模型的倾斜或者一些重要变量的重要性下降。

这些都是数据科学家在做数据科学时常见的错误。如果你能想到的任何其他常见的数据科学错误，我们很乐意在下面的评论听到你的想法。

申请试用在线体验

上一篇：做零售你必须知道的六大数据分析下一篇：报表系统有什么价值？