智能体数据决策分析平台

SmartBI 白泽

一站式ABI平台

SmartBI Insight

智慧数据运营平台

SmartBI Eagle

电子表格软件

SmartBI Spreadsheet

联系我们: 400-878-3819

“指标体系+多智能体协同”双轮驱动的Agent BI >

数据底座

多模态数据

支持结构化与非结构化数据接入

指标模型

统一企业分析口径，保障结果一致性

知识管理

融合大模型与企业私有知识

引擎支撑NEW

智能体引擎

工作流编排，驱动多智能体高效协同

数据模型引擎HOT

支持复杂多表关联，兼顾灵活与性能

指标模型引擎

统一指标口径，确保分析结果可信

分析能力

智能问数

自然语言提问，多轮对话高效取数

复杂计算

自动生成共识，轻松完成多维计算

图表生成

结果可视化，支持多种图表交互

根因分析HOT

多维推理归因，结合知识精准洞察

异常预警

智能发现风险，及时发出预警提醒

智能报告NEW

自动生成解读、总结与行动建议

智能体应用全新模式

分析智能体

ChatBI进化版，智能看数、问数、用数

专家智能体

专家思维推理，自动归因并生成报告

自定义智能体

灵活定制财务、经营、销售等专属助手

了解一站式ABI平台解决方案 >

数据管理

数据接入

支持连接各种数据源

指标管理HOT

实现自增长指标体系

数据采集

业务数据在线/文件补录

数据模型

强大计算能力的OLAP建模

自助ETL

分布式计算的数据处理

数据分析

数据可视化HOT

高度交互的可视化分析

即席查询

自助式明细数据查询

电子表格

真Excel的中国式报表设计

透视分析

自助式多维分析

对话式分析

基于自然语言的智能数据分析

分析报告

数据一键同步到报告

数据挖掘

机器学习实现预测分析

Excel融合分析

面向Excel用户的探索分析

了解智慧数据运营平台解决方案 >

统一数据门户

统一访问入口

资源便捷集成

千人千面个性门户

全局搜索高效找数

数据资产目录

数据资产盘点

多资产类型接入集成

数据资产分类导航

安全开放资产

自助分析体系

即席查询

透视分析

数据可视化

自然语言交互

数据运营管理

用户行为分析

资产运营看板

资产全景视图

数据需求管理

数据互动社区

数据答疑

点赞评论

学习园地

积分排行

数据共享中心

资源分享

应用商店

场景案例库

了解电子表格软件解决方案 >

数据接入

支持连接各种数据源

数据集

拖拽/代码多形式数据集

中国式报表

真Excel的中国式报表设计

系统运维

全方位运维管理

数据采集

业务数据在线/文件补录

业务主题

可复用的语义模型

数据可视化

Echarts图表可视化

权限管理

自助式的OLAP多维分析

数据脱敏

面向Excel用户的探索分析

导入文件

本地csv、xlxs、数据包等

Excel融合分析HOT

面向Excel用户的探索分析

移动报表

数据一键同步到报告

第三方集成

钉钉、微信、企业APP等

资源集成

用户、报表、门户集成

发布分享

用户、报表、门户集成

报表门户

支持App、Web端分析决策

行业解决方案

覆盖金融、制造、医疗、政府、零售等主流行业

联系我们: 400-878-3819

智能制造 >NEW

财务管理

营销管理

供应链管理

订单执行管理

生产过程管控

智慧政府 >

智慧党建大数据建设

纪检监察智慧平台

公安大数据分析应用

审计全覆盖大数据分析

教育行业 >

高校数据中心与应用方案

一网通办推广方案

高校质量实时监测大数据平台

研究生教学大数据服务平台

其他行业

智慧园区大数据解决方案

交通运输业大数据解决方案

水泥行业大数据解决方案

智慧水务大数据解决方案

金融

银行AI智能问数方案NEW

证券AI智能问数方案NEW

银行数字化方案

智慧数据运营平台

能源行业

电力大数据解决方案

燃气大数据解决方案

医疗行业 >NEW

运营管理决策平台

公立医院绩效考核指标监控平台

等级评审指标监控平台

医院智慧审计平台

信创生态

信创ABI产品NEW

资源中心

你身边的数智化智库，汇集了各行各业的数智化解决方案、行业实践经验、趋势洞察和行业洞见等。

进入资源中心 >

联系我们: 400-878-3819

精选资料 >

《医疗行业解决方案集锦》

《制造业数字化人力资源管理方案》

《2024中国制造业智能BI解决方案与案例》NEW

《医院分析指标体系建设白皮书》

《制造行业智能BI最佳实践合集》

《中国银行业商业智能平台数据运营实践与案例》

《制造企业数字化经营管理平台建设方案》

《以指标为中心的ABI平台重塑企业数字化经营白皮书》HOT

智能指南

融合最前沿AI技术与BI能力，结合行业Know-How打造全新一代智能BIHOT

如何让AIGC跟企业的战略能够匹配，能够对齐？HOT

企业有了BI，为什么还需要以指标为核心的ABI平台？

指标体系是重塑企业数字化经营能力的关键！

有了AI大模型加持，企业如何更有效地借助BI释放数据价值？

AI + BI数智融合，如何驱动企业数智化转型发展？

管理驾驶舱成摆设？以指标为核心的ABI平台如何激活核心数据？

如何有效运营数据以驱动业务发展与决策？

服务与支持

思迈特软件提供多种自动和人工服务方式，为您的产品使用和项目保驾护航

投诉热线：199-2645-9486

投诉邮箱：complain@smartbi.com.cn

商务咨询 >

在线咨询

技术专家1V1支持服务

售前热线

400-878-3819转1

邮箱咨询

sales@smartbi.com.cn

项目支持 >

IM即时通讯

即时通讯实时沟通

技术工单

5 × 8 小时在线提供服务

售后热线

400-878-3819转2

邮箱支持

support@smartbi.com.cn

建议反馈

产品及服务反馈渠道

自助提问

用户社区互助解答

新手入门

BI快速入门

快速掌握BI及其应用

视频课程

学习BI知识，产品快速入门

文档中心

所有产品在线文档

新手训练营

每月一次免费产品在线公开课

资格认证

数据分析师系列资格认证

社区交流

同行小伙伴在线经验分享

应用市场 >

应用模板

海量可视化大屏行业/场景应用模板

插件库

功能封装插件商城

素材库

常见图标、边框、组件等可视化素材

产品安全

安全补丁

产品安全补丁下载

了解思迈特软件

思迈特软件致力于为客户提供基于AI Agent的增强分析平台和解决方案，成为数据领域AIGC领导者，让数据为客户创造价值，助力企业数智化运营。

联系我们: 400-878-3819

企业概况

思迈特介绍

合作客户

荣誉资质

可信生态

企业文化

联系我们

品牌资讯

企业新闻

行业资讯

近期活动

媒体报道

客户证言 >

金融 | 珠峰保险

制造 | 三环锻造

制造 | 宝光股份

医药 | 白云山制药

招纳贤士

校园招聘

社会招聘

生态合作

合作伙伴招募计划

交付伙伴招募计划HOT

申请试用

400-878-3819

在线体验

AIChat对话分析

一站式ABI平台

电子表格软件

申请试用

AIChat对话分析

一站式ABI平台

电子表格软件

首页 > 知识百科 > 史上最强Pandas手册，让你从小白立马变身数据分析师，建议收藏！

史上最强Pandas手册，让你从小白立马变身数据分析师，建议收藏！

2021-03-16 11:16:20 | SmartBI知识百科 6494

Pandas是Python的一个数据分析库，提供如DataFrame等十分容易操作的数据结构，是近年做数据分析时不可或缺的工具之一。

虽然已经有满坑满谷的教学文章、视频或是线上课程，正是因为pandas学习资源之多，导致初学者常常不知如何踏出第一步。

在这篇文章里头，我们将接近40个实用的pandas技巧由浅入深地分成6大类别：

建立DataFrame

定制化DataFrame 显示设定

数据清理& 整理

取得想要关注的数据

基本数据处理与转换

简单汇总& 分析数据

通过有系统地呈现这些pandas技巧，我们希望能让更多想要利用Python做数据分析或是想成为data scientist的你，能用最有效率的方式掌握核心pandas能力；同时也希望你能将自己认为实用但本文没有提到的技巧与我们分享。

废话不多说啦，让我们开始这趟pandas旅程吧！当然，首先你得import pandas：

史上最强Pandas手册，让你从小白立马变身数据分析师，建议收藏！

建立DataFrame

pandas里有非常多种可以初始化一个DataFrame的技巧：

1. 用Python dict建立DataFrame

使用Python的dict来初始化DataFrame十分直观，基本上dict里头的每一个键（key）都对应到一个列名称，而其值（value）则是一个iterable，代表该列里头所有的数值。

史上最强Pandas手册，让你从小白立马变身数据分析师，建议收藏！

在需要管理多个DataFrames时你会需要用更有意义的名字来代表它们，但在数据科学领域里只要看到df，每个人都会预期它是一个Data Frame，不论是Python或是R语言的使用者。

很多时候你也会需要改变DataFrame 里的列名称：

史上最强Pandas手册，让你从小白立马变身数据分析师，建议收藏！

这里也很直观，就是给一个将旧列名对应到新列名的Python dict。值得注意的是参数axis=1：在pandas里大部分函数预设处理的轴为行（row），以axis=0表示；而将axis设置为1则代表你想以列（column）为单位套用该函数。

你也可以用df.columns的方式改变列名称：

史上最强Pandas手册，让你从小白立马变身数据分析师，建议收藏！

2. 使用pd.util.testing随机建立DataFrame

当你想要随意初始化一个DataFrame并测试pandas功能时，pd.util.testing就显得十分好用：

史上最强Pandas手册，让你从小白立马变身数据分析师，建议收藏！

head函数预设用来显示DataFrame中前5项数据，要显示最后数据则可以使用tail函数。

你也可以用makeMixedDataFrame建立一个有各种数据类型的DataFrame方便测试：

史上最强Pandas手册，让你从小白立马变身数据分析师，建议收藏！

其他函数如makeMissingDataframe及makeTimeDataFrame我们在后面的章节介绍使用。

3. 将剪贴簿内容转换成DataFrame

你可以从Excel、Google Sheet 或是网页上复制表格并将其转成DataFrame。

只需简单2个步骤：

复制其他来源的表格；

执行 pd.read_clipboard；

史上最强Pandas手册，让你从小白立马变身数据分析师，建议收藏！

这个技巧在你想要快速将一些数据转成DataFrame 时非常方便。

4. 读取线上CSV文档

不限于本地档案，只要有正确的URL 以及网络连接就可以将网络上的任意CSV 档案转成DataFrame。比方说你可以将Kaggle著名的Titanic竞赛的CSV档案从网络上下载下来并转成DataFrame：

史上最强Pandas手册，让你从小白立马变身数据分析师，建议收藏！

过来人经验，虽然像这样利用pandas 直接从网络上下载并分析数据很方便，但是有时host 数据的网页与机构（尤其是政府机关）会无预期地修改他们网站，导致数据集的URL 失效。为了最大化重现性，我还是会建议将数据载到本地备份之后，再做分析比较实在。

5. 优化内存使用量

你可以透过df.info查看DataFrame当前的内存用量：

史上最强Pandas手册，让你从小白立马变身数据分析师，建议收藏！

从最后一列可以看出Titanic这个小DataFrame只占了322 KB。这边使用的df不占什么内存，但如果你想读入的DataFrame很大，可以只读入特定的栏位并将已知的分类型（categorical）栏位转成category型态以节省内存（在分类数目较数据量小时有效）：

史上最强Pandas手册，让你从小白立马变身数据分析师，建议收藏！

通过减少读入的栏位数并将object转换成category栏位，读入的df只剩135KB，只需刚刚的40%内存用量。

另外如果你想在有限的内存处理巨大CSV文档，也可以透通过chunksize参数来限制一次读入的行数（rows）：

史上最强Pandas手册，让你从小白立马变身数据分析师，建议收藏！

定制化DataFrame显示设定

虽然pandas 会尽可能地将一个DataFrame 完整且漂亮地呈现出来，有时候你还是会想要改变预设的显示方式。这节列出一些常见的使用情境。

1.完整显示所有列

有时候一个DataFrame 里头的栏位太多， pandas 会自动省略某些中间栏位以保持页面整洁：

史上最强Pandas手册，让你从小白立马变身数据分析师，建议收藏！

但如果你无论如何都想要显示所有栏位以方便一次查看，可以透过pd.set_option函数来改变display.max_columns设定：

1 pd.set_option("display.max_columns", None)

2 df

另外你也可以使用T来转置（transpose）当前DataFrame，垂直显示所有栏位：

1 df.T.head (15)

此外，你可以在pandas官方文件里查看其他常用的显示设定。

2. 减少显示的栏位长度

这边你一样可以通过pd.set_option函数来限制Titanic数据集里头Name栏位的显示长度：

史上最强Pandas手册，让你从小白立马变身数据分析师，建议收藏！

3. 改变浮点数显示位数

除了栏位长度以外，你常常会想要改变浮点数（float）显示的小数点位数：

史上最强Pandas手册，让你从小白立马变身数据分析师，建议收藏！

你会发现Fare栏位现在只显示小数点后一位的数值了。另外注意刚刚设定的max_colwidth是会被套用到所有DataFrame的。因此这个DataFrame的Name栏位显示的宽度还跟上个DataFrame相同：都被缩减了。

想要将所有调整过的设定初始化，可以执行：

1 pd.reset_option("all")

其他常用的options 包含：

max_rows

max_columns

date_yearfirst

等等。执行pd.describe_option()可以显示所有可供使用的options，但如果你是在Jupyter notebook内使用pandas的话，我推荐直接在set_option函式的括号里输入Shift+ tab显示所有选项。

另外值得一提的是pandas 函数都会回传处理后的结果，而不是直接修改原始DataFrame。

这让你可以轻松地把多个函式串（chain）成一个复杂的数据处理pipeline，但又不会影响到最原始的数据：

史上最强Pandas手册，让你从小白立马变身数据分析师，建议收藏！

瞧！原来的DataFrame还是挺淳朴的，注意Fare栏位里的小数点并没有因为刚刚的styling而变少，而这让你在呈现DataFrame时有最大的弹性。

以上是思迈特软件的一些技术分享，希望对您有所帮助！

申请试用在线体验

上一篇：Smartbi这7张可视化模板也太炫酷了吧！老板看了都点赞！赶快收藏起来！下一篇：只会用Excel做数据？试试这个Excel插件，用过的人都真香！

UI主题套用，模板免费下载

专题推荐

数据分析数据可视化行业应用案例场景应用案例 BI工具商业智能

商业智能BI资料包

扫码添加「小麦」领取 >>>

专题推荐

数据分析数据可视化行业应用案例场景应用案例 BI工具商业智能

商业智能BI资料包

扫码添加「小麦」领取 >>>

新一代商业智能BI工具

覆盖传统BI、自助BI、现代BI不同发展阶段，满足企业数字化转型的多样化需求

一站式ABI平台

集数据管理与数据分析应用的全能产品

AIChat对话分析

采用AI智能体的新一代智能BI平台

智慧数据运营平台

实现数据资产化向资产服务化阶段迈进

电子表格软件

“真Excel”企业级Web报表开发工具

让数据成为增长引擎，解锁行业领先的智能BI实践方案！

前往下载