智能BI平台全新升级

Smartbi AIChat

一站式ABI平台

Smartbi Insight

智慧数据运营平台

Smartbi Eagle

电子表格软件

Smartbi Spreadsheet

联系我们: 400-878-3819

融合AI Agent+Workflow的Agent BI平台 >

数据底座

引擎支撑NEW

分析能力

智能体应用全新模式

了解一站式ABI平台解决方案 >

数据管理

数据分析

了解智慧数据运营平台解决方案 >

了解电子表格软件解决方案 >

行业解决方案

覆盖金融、制造、医疗、政府、零售等主流行业

联系我们: 400-878-3819

教育行业 >

高校数据中心与应用方案

一网通办推广方案

高校质量实时监测大数据平台

研究生教学大数据服务平台

其他行业

智慧园区大数据解决方案

交通运输业大数据解决方案

水泥行业大数据解决方案

智慧水务大数据解决方案

金融

银行AI智能问数方案NEW

证券AI智能问数方案NEW

银行数字化方案

智慧数据运营平台

能源行业

电力大数据解决方案

燃气大数据解决方案

医疗行业 >NEW

运营管理决策平台

公立医院绩效考核指标监控平台

等级评审指标监控平台

医院智慧审计平台

信创生态

信创ABI产品NEW

资源中心

你身边的数智化智库，汇集了各行各业的数智化解决方案、行业实践经验、趋势洞察和行业洞见等。

进入资源中心 >

联系我们: 400-878-3819

精选资料 >

《医疗行业解决方案集锦》

《制造业数字化人力资源管理方案》

《2024中国制造业智能BI解决方案与案例》NEW

《医院分析指标体系建设白皮书》

《制造行业智能BI最佳实践合集》

《中国银行业商业智能平台数据运营实践与案例》

《制造企业数字化经营管理平台建设方案》

《以指标为中心的ABI平台重塑企业数字化经营白皮书》HOT

智能指南

融合最前沿AI技术与BI能力，结合行业Know-How打造全新一代智能BIHOT

如何让AIGC跟企业的战略能够匹配，能够对齐？HOT

企业有了BI，为什么还需要以指标为核心的ABI平台？

指标体系是重塑企业数字化经营能力的关键！

有了AI大模型加持，企业如何更有效地借助BI释放数据价值？

AI + BI数智融合，如何驱动企业数智化转型发展？

管理驾驶舱成摆设？以指标为核心的ABI平台如何激活核心数据？

如何有效运营数据以驱动业务发展与决策？

服务与支持

思迈特软件提供多种自动和人工服务方式，为您的产品使用和项目保驾护航

投诉热线：199-2645-9486

投诉邮箱：complain@smartbi.com.cn

售前热线

400-878-3819转1

邮箱咨询

sales@smartbi.com.cn

IM即时通讯

即时通讯实时沟通

技术工单

5 × 8 小时在线提供服务

售后热线

400-878-3819转2

邮箱支持

support@smartbi.com.cn

新手入门

产品安全

了解思迈特软件

思迈特软件致力于为客户提供基于AI Agent的增强分析平台和解决方案，成为数据领域AIGC领导者，让数据为客户创造价值，助力企业数智化运营。

联系我们: 400-878-3819

企业概况

思迈特介绍

合作客户

荣誉资质

可信生态

企业文化

联系我们

品牌资讯

企业新闻

行业资讯

近期活动

媒体报道

招纳贤士

校园招聘

社会招聘

生态合作

合作伙伴招募计划

交付伙伴招募计划HOT

申请试用

400-878-3819

在线体验

AIChat对话分析

一站式ABI平台

电子表格软件

申请试用

AIChat对话分析

一站式ABI平台

电子表格软件

国内领先的商业智能 BI 和 AI 应用厂商

Agent BI实践的先行者与引领者

国内领先的商业智能 BI 和 AI 应用厂商

Agent BI实践的先行者与引领者

品牌资讯

企业新闻 >
近期活动 >
媒体报道 >
行业资讯 >

> 关于 > 品牌资讯 > 行业资讯

如何利用数据挖掘平台，通过数据建模，解决垃圾短信带来的困扰

发布时间：2020-08-25 游览量：4277

如今，手机已经成为人们日常生活必不可少的工具之一。虽然各种社交APP层次不穷，但手机短信以其操作简单、方便快捷等诸多优点一直都是用户间沟通的基础方式。手机短信在为人们带来极大便利的同时，随之而来的诸多垃圾短信问题日益严峻，广告信息、欺诈短信、谣言散布等短信内容，严重危害了社会公共安全。据360手机卫士安全中心发布的数据，2019年全国垃圾短信拦截总量约为320亿条，平均每天收到垃圾短信超过5000万条。据统计，各类垃圾内容中，冒充类短信占所有垃圾短信的92.8%，多以银行诈骗、互联网虚假网购、电信诈骗等内容为主。垃圾短信泛滥，已经严重影响到人们正常生活、运营商形象乃至社会稳定。

面对激烈的市场竞争，各大运营商及相关部门都在寻求一种快速、有效的垃圾短信识别方法。通过垃圾短信的精准识别，以完善用户的通讯环境，为有关部门提供有效依据，维护运营商利益。本案例基于思迈特软件的数据挖掘平台Smartbi Mining进行建模，使用随机森林文本分类算法建立合理的短信识别模型，对垃圾短信进行识别，解决运营商和手机用户的困扰。

1、现状分析

目前我国垃圾短信的现状：

Ø 垃圾短信黑色利益链由于短信的方便、低成本等特点，垃圾短信已经形成了黑色利益链，严重为害社会公众安全。由于监管缺失，一些不良组织通过各式各样的渠道收集个人手机信息，并将手机信息卖给有需求的商家和业务人员获取利益，同时商家等通过发送广告推销、诈骗等垃圾短息，来谋取利益，严重危害了短信用户的信息安全及正常生活。

Ø 缺乏法律保护目前，虽然我国颁布了有关调整或者规范短信的法律、法规、政策性文件，如公安部、信息产业部、中国银行业监督管理委员会联合发出《在全国范围内统一严打手机违法短信息的通知》等，但是以规范短信业务的制度法来说，仍属空白。对垃圾短信的识别并追踪，找到垃圾短信发送的种子用户，不仅能够打击该类违法分子，还能弥补法律空白。

Ø 短信内容日益多变垃圾短信的投放方式和内容的不断改进及变化，导致垃圾短信的拦截效果越来越差，传统的基于敏感词过滤方法不仅易受到同义词、字符等干扰，且不能很好适应垃圾短信的快速变化。因此，垃圾短信过滤方法的改进优化成为运营商需要重点解决的问题。

2、思路流程

垃圾短信识别的主要步骤如下所示：

1. 数据获取，获取所需数据集；

2. 数据预处理，对数据进行文本中文分词、停用词过滤处理等；

3. 建模准备，将分词结果分别转换成文档-词条矩阵，并划分测试集与训练集；

4. 模型构建与评价，构建随机森林模型，并建立评价指标精确率、召回率、F1值对模型分类效果进行评价。

5. 分析结果，总结和建议。

3、实施过程

3.1 数据接入

目前，某运营商已经积累了大量的垃圾短信数据。经过加工处理数据如图3-2所示。本案例收集了295755条短信文本数据，字段说明见表3-1。

表3-1 字段说明

字段名称	类型	字段说明
_c1	整型	0表示正常短信，1表示垃圾短信
_c2	字符串	短信内容

如何利用数据挖掘平台，通过数据建模，解决垃圾短信带来的困扰

图3-2 数据集

为了方便识别字段含义，这里接入一个元数据编辑节点取别名，如图3-3所示。

如何利用数据挖掘平台，通过数据建模，解决垃圾短信带来的困扰

图3-3 元数据编辑

3.2 数据预处理

1、分词

中文分词是指将一整段文字切分为具有最小语义的词条信息，即以词作为基本单元，使用计算机自动对中文文本进行词语的切分，将文本数据转化为机器可识别的形式。英文单词之间是由空格作为分界符的，中文则是由字为基本书写单位，词语之间没有明显的区分符，因此，中文分词是中文信息处理的基础与关键。分词结果的准确性，对后续文本挖掘有着重要影响。如在进行特征的选择时，不同的分词效果将影响词语在文本中的重要性，从而影响特征的选择。

这里接入一个分词节点将text列进行分词，_c2_seg为分词后的字符串型结果，_c2_seg_words为分词后的WrappedArray类型结果，分词输出结果如图3-4所示。

如何利用数据挖掘平台，通过数据建模，解决垃圾短信带来的困扰

图3-4 分词

2、停用词处理

中文表达中常常包含许多功能性词语，相比于其它词汇，功能性词语并没有太多的实际含义。最常用的功能性词语是限定词，如“的”、“一个”、“这”、“那”等。这些词语的使用较大的作用仅仅是协助一些文本的名词描述和概念表达。在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词，这些字或词即被称为停用词。

我们选择_c2_seg_words列，接入一个停用词处理节点，自定义停用词列表，如图3-5所示，输出结果如图3-6所示。

如何利用数据挖掘平台，通过数据建模，解决垃圾短信带来的困扰

图3-5 停用词列表

如何利用数据挖掘平台，通过数据建模，解决垃圾短信带来的困扰

图3-6 停用词处理

3、TF-IDF

由于文本数据无法直接用于建模，因此需要将文本表示成计算机能够直接处理的形式，即文本数字化。TF-IDF算法即将文本数据进行数值化。TF意思是词频，IDF意思是逆文本频率指数，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF值越高，说明该词越重要。

我们接入TF-IDF算法进行抽取变换，输出结果如图3-6所示。

如何利用数据挖掘平台，通过数据建模，解决垃圾短信带来的困扰

图3-6 TF-IDF

整个的数据预处理流程图如图3-7所示。

如何利用数据挖掘平台，通过数据建模，解决垃圾短信带来的困扰

图3-7 数据预处理

3.3 构建模型

本案例采用随机森林算法模型，通过特征选择_c2_seg_words_filtered_idf列，目标标签为target,整体模型训练预测如图3-8所示。

如何利用数据挖掘平台，通过数据建模，解决垃圾短信带来的困扰

图3-8 构建模型

随机森林参数配置如图3-9所示。

如何利用数据挖掘平台，通过数据建模，解决垃圾短信带来的困扰

图3-9 参数配置

3.4 模型评价

通过评估节点接入，如图3-8所示，评估结果如图3-10所示。

如何利用数据挖掘平台，通过数据建模，解决垃圾短信带来的困扰

分析结果得出F1分数达到0.91,说明该模型效果比较不错的。

该模型能较好地识别出垃圾短信，有效进行垃圾短信过滤，解决运营商及用户的困扰。并且由上述分析提出以下建议：

ü 对于垃圾短信过滤可结合传统匹配方法与基于内容的分类方法，不断优化识别模型以适应垃圾短信内容形式的不断变化。

ü 对于垃圾短信泛滥问题，应当健全法律机制，结合垃圾短信识别系统，从根源上进行遏制，从而建立一个良好的通信环境。

本案例运用短信数据，对垃圾短信进行识别。重点介绍了文本数据的处理及转换过程，以及随机森林文本分类算法在实际案例中的应用。主要实现了垃圾短信的精确识别，通过获得以上挖掘结果，为相关运营商提供一种解决垃圾短信过滤问题的方案。

申请试用

新一代商业智能BI工具

AIChat对话式分析

了解详情
一站式ABI平台

了解详情
智慧数据运营平台

了解详情
电子表格软件

了解详情

你已经点过赞了

智能BI平台 全新升级

Smartbi AIChat

一站式ABI平台

Smartbi Insight

智慧数据运营平台

Smartbi Eagle

电子表格软件

Smartbi Spreadsheet

融合AI Agent+Workflow的Agent BI平台 >

数据底座

多模态数据

指标模型

知识管理

引擎支撑NEW

智能体引擎

数据模型引擎HOT

指标模型引擎

分析能力

智能问数

复杂计算

图表生成

根因分析HOT

异常预警

智能报告NEW

智能体应用全新模式

分析智能体

专家智能体

自定义智能体

了解一站式ABI平台解决方案 >

数据管理

数据接入

指标管理HOT

数据采集

数据模型

自助ETL

数据分析

数据可视化HOT

即席查询

电子表格

透视分析

对话式分析

分析报告

数据挖掘

Excel融合分析

了解智慧数据运营平台解决方案 >

统一数据门户

数据资产目录

自助分析体系

数据运营管理

数据互动社区

数据共享中心

了解电子表格软件解决方案 >

数据接入

数据集

中国式报表

系统运维

数据采集

业务主题

数据可视化

权限管理

数据脱敏

导入文件

Excel融合分析HOT

移动报表

第三方集成

资源集成

发布分享

报表门户

行业解决方案

覆盖金融、制造、医疗、政府、零售等主流行业

智能制造 >NEW

智慧政府 >

教育行业 >

其他行业

金融

能源行业

医疗行业 >NEW

信创生态

资源中心

你身边的数智化智库，汇集了各行各业的数智化解决方案、行业实践经验、趋势洞察和行业洞见等。

智能BI平台全新升级