商业智能(BI)与大数据分析软件
效益,因管理而变,管理因我们(Smartbi)而变

商业智能(BI)与大数据分析软件

效益,因管理而变,管理因我们(Smartbi)而变

智能化3.0时代,对话式分析如何保障高准确率

发布时间:2025-04-19      游览量:27

在数字化时代,如何更高效地挖掘数据是诸多企业关注的问题。ChatBI让数据分析摆脱复杂操作,以对话形式轻松实现。而DeepSeek的出现是否能进一步提升ChatBI的准确率、响应速度与结构化输出,使其成为会思考的智能分析师。两者的融合又是否会成为行业变革新引擎,这仍需要探索和实践。

本文将结合思迈特软件的实践,探讨ChatBI对话式分析如何保障高准确率,为企业数字化转型寻找突破口。



01


ChatBI应用场景及价值


ChatBI一词去年开始出现,此前该领域统称商业智能,即BI,其已有二十多年发展历史。在传统BI领域,主要通过报表交付或大屏交互,供业务人员、分析师进行分析与决策。这类场景多服务于中高层管理人员,辅助其依据各类经营指标进行决策。传统开发一张大屏或报表,通常需数月时间,在某些金融领域周期更长。随着AIGC领域的发展,各类应用均向AI靠拢,许多产品面临重塑,由此进入智能化3.0的BI时代。


智能化3.0时代以大模型为主导,区别于以往以IT或业务为主导的2.0时代。通过大模型自动生成分析见解与报告。对于多数金融客户,数据获取是一大难题。在AIChat场景下,借助大模型交互,可快速获取所需数据,摆脱对IT的依赖,这对传统方式产生了颠覆性影响。此外面对复杂问题,传统方式往往是业务人员借助Excel反复加工,有时甚至需要专业的数据分析人员使用Python进行处理,多次加工后才能得到真正的数据分析结果。如今随着大模型出现,可直接利用大模型自动进行数据加工,从而很好地解决各类复杂问题。


10002.png


自智能化3.0时代到来,业务人员和管理人员可通过零门槛的方式自由获取数据,甚至对所有复杂场景进行深入分析。这对传统方式形成了颠覆,数据响应时间达到秒级或分钟级,所有人都能快速获取数据。当前智能BI领域能带来一下具体价值:


  • 首先是单指标查询,通过对话方式能获取任何想要的单指标数据。传统方式下开发了大量报表,在经营领域,客户报表数量常常多达上千张。对业务人员而言,找到特定报表获取所需数据难度极大,且找到的数据也未必符合需求。因此,我们提出AIChat的第一个功能——智能问数,以此实现指标查询。在指标查询中,还会运用大模型的泛化性思维。例如问句为查询去年每个月的销量情况,这是一个泛化类指标并非明确指标,因为与销量相关的指标众多。大模型会结合用户历史查询记录或其泛化性思维,给出相关指标供用户参考,用户也可通过多轮交互获取所需数据。



  • 第二是多指标查询,包含同比及排序等方式。业务人员拿到数据后需进行分析,常用分析方案有同比、环比等。在传统方式中,这些通常由IT人员提前加工处理,例如在金融领域中,月均、日均这类指标都由IT人员提前计算。但这种提前计算会消耗大量IT人力。如今通过大模型,可采用任意指标加工方式自动进行加工,不再依赖IT人员计算,简化了IT处理数据的过程。



  • 第三是嵌套查询多轮对话。在数据分析领域,很多情况并非简单查数。例如,用户询问23年销量前三的车型以及其销量”,这是典型的多轮和嵌套方式。结合大模型思路,它会自动拆分用户问句,编写嵌套SQL语句来生成所需数据,这属于较为复杂的查询方式。

  • 第四,业务人员获取数据后通常以图形方式呈现。传统方式是先提取数据,再导入BI工具,在BI工具中查找设置项来设计精美的图形。业务人员需熟知众多BI属性设置项,例如图例、字体大小等数百个BI设置项。如今,借助大模型,可通过对话生成并修改图形。例如客户提出生成一个销量分析的驾驶舱,大模型会基于此段对话自动拆解。它会从时间维度、产品维度、区域维度等各种维度进行自动分析,分析完成后结合驾驶舱生成一段解析内容,助力用户理解数据。



ChatBI的应用场景:

场景一、智能问数


与传统方式相比,智能问数有显著改善,传统方式存在诸多问题:

1. 查找特定指标时,需找到对应的报表,这一过程往往令人困扰;

2. 获取的数据可能需要二次加工,需先导出数据,再借助Excel进行处理。若对数据需求紧急,加工过程会显得繁琐;面对复杂需求,加工处理时间会更长。


而智能问数可通过统一管理口径避免歧义,其产品自带大模型,具备上下文理解能力。借助大模型,用户能通过对话自动、及时地获取所需数据。同时,产品内置DSL方案,如同比和环比等,由提前预置好的算法直接无缝调用,确保不出错。产品还内置Python二次计算功能。在产品应用中,常使用SQL提取简单数据,对于复杂关联场景,则运用Python进行二次加工。Python在数据分析方面具有强大优势,从而使产品功能更为强大。这是智能问数中最常用的四个场景,包括指标查询、同环比计算、子查询、图形生成以及驾驶舱相关内容。


10003.png


场景二、归因分析


目前市面上同类的ChatBI产品大多具备归因分析功能,该功能通常适用于以下场景:业务分析员常面临领导的关键提问,例如上个月业绩为何下降?”“某产品销量为何不达标?” 接到此类指令后,业务分析员需查找对应数据,探寻导致效率下降的原因。传统方式是,业务分析员要制作各类维度的报表,如基于月度、不同销售区域、产品类型等分别制作报表,之后将这些维度的数据进行手工统计,把所有报表整合起来,形成报告向领导汇报。


如今基于大模型的ChatBI产品,用户可通过对话获取想要的结果。比如用户询上个月销量为何下降?,产品会自动查找与销量相关的所有指标,包括行业、区域、人员等各个维度,进而找出影响最大的因素。数据导出后会进行排序、总结,生成图表报告以供参考。


10004.png


在业务分析领域,常发现一个指标会受其他指标影响。例如,毛利与合同个数、合同金额、人均单价等有关。传统维度归因仅能从地区等维度分析,而因果归因可自动寻找与毛利相关的指标并形成具体报告。举例来说,若合同贡献毛利下降,因果归因能列出受影响的指标,如商机个数,且不仅明确受影响的指标,还能指出商机个数与哪些成员相关,即与哪些维度相关,比如哪个地区商机不足、哪个地区人均单价下降等都会列出。从数据角度看,大模型分析更加全面,能依据用户问句生成报告。


场景三、深度智能报告


这是一种专家模式,去年12月份结合某客户测试HR场景开发,从而发布的新功能。以下是当时所做的HR部门的例子,该部门有10万员工,需要经常进行分析,如离职率这类简单场景,还有诸如加班对离职率是否有影响、薪酬提升比例对其是否有影响等问题。这类问题并非常规分析问题,所以当时为其打造了专家模式分析。例如,面对“企业为员工做了什么努力这样一个泛化性问题,系统会自动生成带有图表和数据的分析报告及结论,供业务人员参考。


10005.png


这是去年的成果,今年与客户交流发现此功能深受客户喜爱。原因在于,DeepSeek具备深度思考能力,在深度思考过程中会自动找出所有相关数据并整合,通过CoT思维链总结后输,专家模式与之类似。


具体案例:某销售型企业,销售人员每月都要撰写总结性报告,且每次报告命题不同。用户提出需要写一篇销量总结报告,整理和分析去年销售的情况,同时找出优缺点。这是一个泛化类问题,常规的ChatBI数据分析产品难以达成。该产品会类似DeepSeek进行总结性思考,思考销量情况涉及哪些指标并寻找相关数据。例如,对于销售相关数据,它会扩展出省份、城市、车系等不同类别,以及销量规模、车均价等大模型认为与销量有关的内容。


首先找出这些维度和指标,将相关数据呈现出来,所有相关数据明细都会列出,便于分析人员确认数据可信度,而传统BI在分析过程中不展示数据。接着,用户提出找出去年做得比较好和比较差的品牌的情况,大模型自动展开分析。对于汽车销售企业,最直观的分析角度是销量,于是大模型直接找出销量排名前十和后十的品牌,整个过程由大模型自动进行泛化和总结。在交互过程中,用户可随机中断并补充额外知识。最终,产品会生成总结内容,例如,从车型维度、SUV市场、经济型车型等方面提供总结报告。


但用户可能发现分析结果不够彻底,因为提问是关于去年的情况,而报告似乎遗漏了时间维度。此时,用户可进行多轮交互,要求产品加上季度和月度的数据对比。添加该需求后,产品会自动引入季度和月度数据,并在明细中列出相关数据,使分析方案更具可信度。完成上述操作后,查看分析总结,能看到已加入季度和月度数据对比,明确了哪个月销量好、哪个月销量差,从季度层面也进行了分析。然而,用户可能仍觉得总结不够全面,维度和指标不足,此时可继续对话,要求产品总结得更加详细,如此循环,分析报告将不断完善。


这是去年所采用的专家模式方案。未来产品将进一步迭代,后续可能会深入结合DeepSeek推理模型,将企业内所有数据纳入,以挖掘更多分析思维,减少人工干预。目前的场景仍需不断交互,最终将报告导出,提交给领导。


场景四、报表助手


在大模型场景中提到的ChatBI产品,其本身是结合BI发的。前面的场景可能适用于新用户,那么针对BI老用户,有哪些功能扩展?为此推出了报表助手。报表助手适用于以下场景:若用户此前制作了大量报表,如何充分利用这些报表?现在新增报表助手功能,在报表上添加一个小按钮,点击后可进行对话,如分析这张报表并作出总结,系统会自动将报表数据传输给大模型进行深入总结。用户还能持续对话,使总结更加完善。若原本是表格形式的报表,还可通过不同类别添加图形。


第二类是驾驶舱助手。传统驾驶舱的指标维度固定,管理人员若想从更多维度分析,以往需让开发人员新增指标。现在无需如此,驾驶舱隐藏了助手功能,点击后可通过对话获取驾驶舱以外的指标,还能对驾驶舱进行深入分析。


10006.png




02

ChatBI技术原理解析


首先来看技术框架,从底层而言,产品是结合BI底座实现的。在平台层,更多体现BI特性。例如在传统BI中,可对接企业的各类宽表、实时表,构建信息模型、雪花模型,对于通过API提供数据的企业,也能实现接入。接入完成后,利用BI常规功能进行数据建模关联,这是必要步骤,旨在让大模型知晓其中的表、维度及其关联方式。配置数据模型后,新增企业相关知识,由于每个企业对指标定义不同,因此涉及企业私有化知识的导入。经训练后,业务人员可在上层通过对话式分析进行问数、问图、问表,开展跟进分析与预警预测。


10007.png


结合BI功能具有以下优点:

  • 权限无缝继承。此前为企业制定大量数据处理方案,并进行精细权限管控,使用该产品后,权限得以延续,就像传统模式下只能看到个人数据报表一样,对话模式下权限也受同样限制。

  • BI中常用的分析报表与思维可无缝继承到新平台。后续平台会分析业务人员操作习惯,了解其常分析的报表并进行自动推荐。


10008.png


这是数据建模的标准化流程,在此过程中,通过建立数据关系图谱,将产品表和销售表进行维度相关的关联配置。关联完成后构建AI图谱,构建时将所有产品名称、产品编码以及相关联的表和信息,全部嵌入向量库进行学习,这是RAG过程,是提升准确性的首要步骤。训练完成后,需添加企业自身的一些额外知识,包括复杂分析示例,即特定问句返回特定结果。通过QA类方式为企业提供这些示例的配置方案,企业完成配置后可快速获得精准结果。这是构建AI图谱的过程,也是保证精准性的第一步。


10009.png


构建完成后,需从技术路线上确保其准确性。第一种是直接将大模型转换为SQL方案,目前在企业中的应用领域较少。原因在于,在全球评测排行榜中,BERT生成SQL的准确性仅有60%多,准确性较低。并且若提供全量表,无法进行权限管控,在处理多表时,大模型也难以确定与指标相关的表,所以该方案很少被采用。在此基础上发展出第二版,即新增类似数据模型关联的视图,针对主题进行提问。封装完主题后,需定义自己的DSL(领域特定语言),将其封装成一种语言供大模型学习,如SQLJSONMDX等。因为要封装权限等内容,所以需要对大模型进行微调。当前,所有ChatBI厂商基本都会封装自己的DSL


但这种方式存在一定局限性,必须进行训练,且训练周期较长,后续若增加新类型问题,还需再次训练,过程较为繁琐。目前市面上的产品大多采用第三种技术路线,新增一个向量库,将指标、表关联关系等内容存入其中。最初提问时,先通过向量进行匹配,匹配完成后让大模型生成SQLDSL,这种方式使准确性大幅提升,基本达到80%以上,且无需对大模型进行微调。


随着Agent框架的推出,分析场景中存在更多复杂情况,不只是简单查数,还可能需要进行深入归因、撰写PPT或报告等。此类场景出现后,单一的技术路线无法满足需求。基于此,推出了Agent框架。在Agent框架概念中,用户提问后,它会先思考问题的目的,进行意图识别判断,判断该问题是用于归因、数据查询还是报表制作等。若判断为复杂的数据分析问题,它会依据规划器原理将任务拆分,可能拆分成多个数据查询任务,甚至包括跨表关联或跨数据关联模式,形成多个子任务并进行合并与关联。完成后,再结合分析性插件整合数据。这是整个Agent框架,它能处理各类复杂的数据分析相关内容,通过这种方式大幅提高了业务分析的准确性。


完成上述操作后,探讨在问句提问后如何精确查找指标,这涉及字段精确召回流程。业务人员先进行提问,提问完成后,利用分词小模型拆分问句,进行实体识别,之后以向量形式进行向量匹配。同时,对问句进行意图识别,判断该问题属于查数据、知识问答、预测性分析还是归因分析等类型。将问句拆分并完成向量匹配后,生成多个前述的SQL,再对SQL进行融合。


10010.png


案例分析:客户提问有一位现金大于1万的客户,查询他的资产负债以及健康状况”。这是一个复杂问句,客户信息、资产信息、负债信息记录在不同的多表中。收到该问句后,对其进行实体识别与拆分,将日期单独拆分出来,把现金也拆分出来,然后将这些字段分别在项目中检索以找到对应的字段。系统会识别出具体的日期字段,问句中涉及客户编码,现金属于资产名称中的一类并将其纳入。


10011.png


由于向量是通过模糊匹配形式返回结果,不够精准,所以将这些字段输入大模型,结合问句和场景进行二次精排与选择,更明确地确定涉及的表和字段,再将字段输入大模型生成自定义DSL,此时可以看到DSL的内容。生成的DSL相当于两段SQL。对于生成的两段SQL如何合并的问题,传统方式可能使用SQL进行合并,而在本产品中采用Python进行合并。Python在跨表关联、复杂分析场景以及计算方面具有优势,例如取前三可直接使用精确的head函数。因此,将生成的SQL简化为多个简单SQL,再用Python进行二次加工,可大幅提高复杂问句处理的准确性。最终合并完成后,通过Python加工将结果返回给用户。


DeepSeek推出的推理模型对数据分析有一定提升。从数据分析智能体流程来看,推理模型擅长以下方面:

  • 一是意图识别,以思维链方式进行思考,在最初问题分析时加入DeepSeek的意图识别功能可增强效果;

  • 二是当出现复杂问句时,能通过其方式进行复杂任务的拆分与推理,实现适应与增强;

  • 三是结合企业数据形成智能洞察结果,其语义理解和推理能力更强。基于此,结合专家模式,让推理模型R1进行深入思考,以形成更完善的总结。


10012.png


通过对非结构化数据的识别,结合DeepSeek的推理过程,自动寻找对应的数据分类分析工具,从而形成分析结果。




03

案例分享


案例一:某上市证券公司,每年需采购价值上百万的人力服务来开发大量报表和驾驶舱。随着大模型出现该客户尝试突破,不再依赖大量报表开发,期望业务人员能随时获取数据。


10013.png


实施方案:调研业务领导常用的数据分析方案,梳理涉及的指标和具体场景。例如,作为证券公司,涉及基金客户、CRM相关客户信息、财富管理委员会的需求以及源数据需求等明确业务场景。收集这些场景并调研相关指标后,搭建指标知识库,构建相关数据模型,对涉及的表进行关联。关联完成后,业务人员和领导可随时进行问询。整个项目上线周期约两个月。最终,管理人员通过对话方式,可随时获取这几个场景相关的数据问答。


10014.png


对于该证券公司而言,以往每年需采购价值上百万的人力服务用于制作报表,如今所有取数需求都通过对话式分析实现,复杂报表也不再依赖开发人员编写SQL。从增效方面来看,由于该客户属证券行业,存在数据安全隐患。传统方式下,需业务人员进行审核后才能提取数据,而现在通过设置精细化的权限管控,实现了秒级响应。


案例二:某制造业企业产品上万种,销售人员每次报价时,首先要查询产品报价,这一过程相对简单。但当面对一些大客户采购多批量不同品种的产品时,由于公司有一定的毛利需求,例如有成本价要求,假设客户要采购一批产品,公司要求这批产品最终达到15%的毛利率。传统方式是将所有批次产品的成本价、销售价等信息提取出来,导入Excel,经过复杂加工后形成报价策略。


10015.png


而现在通过大模型则更加便捷,将相关数据输入大模型后直接提问,大模型会自动生成报价策略,并且还可以通过多轮对话得出优选方案。例如A产品价格比平时高,要求下调10%,大模型会自动对其他产品价格进行相应计算。通过这种方式,为企业销售人员带来极大便捷,他们可随时随地获取最优报价方案。由于大模型具备智能记忆功能,会自动记录报价策略,下次报价时,可结合上次报价方案作为参考。


活动资料.jpg

点击图片,领取完整版视频实录和课件



思迈特AI售前总监朱海,深耕商业智能领域十余年,为南方电网、湖北电网、中国石化、三一重工、长江存储、长沙银行等50+央国企及行业头部客户提供数字化转型解决方案,擅长将企业级BI技术与业务场景深度融合,聚焦AI智能决策技术创新,推动企业从"数据可视化"向"决策自动化"的范式跃迁。




新一代商业智能BI工具

你已经点过赞了
Copyright© 广州思迈特软件有限公司  粤ICP备11104361号 网站地图

电话咨询

售前咨询
400-878-3819 转1

售后咨询
400-878-3819 转2
服务时间:工作日9:00-18:00

微信咨询

添加企业微信 1V1专属服务