python分类
‘壹’ python的特性是什么
Python是一门大家都比较熟悉的一门计算机语言,也是比较简单的一门计算机语言,相对于来说更加简单一些,而且也是不少人进入行业内的首要选择。
Python是一门好用又简单易学的计算机编程语言,在近几年中,Python受到了不少IT人士的追捧,热度也是越来越高了,成为了我们入门首选的编程语言,为什么呢?因为Python具有非常广泛的应用范围,在人工智能、web开发之中具有非常好的应用,同时在金融分析、爬虫等领域也具有很大的作用。
1、Python采用C语言进行开发,但是Python不再有C语言中的指针等复杂的数据类型存在。
2、Python具有很强的面向对象特性,同时也简单化了面向对象的实现,可以消除保护类型、抽象类、接口等面向对象的元素。
3、Python代码可以使用空格或者制表符缩进的方式分割代码。
4、Python仅仅只有31个保留字,而且没有分号、begin、end等标记。
5、Python是强类型的语言,变量创建之后会对应一种数据类型,出现在统一表达式中的不同类型的变量需要做类型转换。
‘贰’ 请问一下python的基本概念是什么
1.概念:Python是一种跨平台的计算机程序设计语言。 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越多被用于独立的、大型项目的开发。
2.Python简介及应用领域
Web 和 Internet开发
科学计算和统计
人工智能
桌面界面开发
软件开发
后端开发
网络爬虫
‘叁’ 分享!5种常用的Python工具
IDLE
在安装Python时,默认也会安装IDLE。这是最优秀的Python工具之一。它可以降低Python入门的门槛。它的主要功能包括Python Shell窗口(交互式解释器)、自动补齐、高亮显示语法以及基本的集成调试器。IDLE轻巧易用,方便学习。但是,它不适用于大型项目。许多程序员都将其作为最佳的Python工具。
Scikit-learn
Scikit-learn是数据科学最常使用的Python工具之一。这是一款为机器学习和数据科学而设计的Python工具。该工具主要用于处理分类、回归、聚类、模型选择以及预处理等任务。scikit-Learn最出色的功能是在测试数据集上执行基准测试时,表现出的惊人速度。因此,对于程序员和学生来说,Scikit-learn是最优秀的Python工具之一。
Theano
Theano是一款数据科学的Python工具,对于程序员和学生而言,这是一款非常可靠的工具。它是深度学习方面最好的Python工具,因此非常适合深度学习。Theano的设计主旨是用户友好、模块化、易于扩展,而且可以与Python配合使用。它能够以最佳方式表达神经网络。Theano可以在TensorFlow和CNTK等流行的神经网络之上运行。
Selenium
Selenium是最佳的Python自动化工具之一。它适用于Python测试的自动化,常常用作Web应用程序的自动化框架。我们可以利用Selenium,通过许多编程语言(包括Java、C#、Python、ruby以及其他许多程序员和学生使用的语言)来编写测试脚本。你还可以在Selenium中集成Junit和TestNG等工具,来管理测试用例并生成报告。
Test complete
Testcomplete是另一款非常出色的Python自动化工具。支持Web、移动和桌面自动化测试。更高级的应用需要获得商业许可,而且它还可以帮助学生提高学业成绩。Test complete还可以像机器人框架一样执行关键字驱动的测试。它拥有最出色的录制以及回放功能,非常实用。
关于分享!5种常用的Python工具,环球青藤小编就和大家分享到这里了,学习是永无止境的,学习一项技能更是受益终身,所以,只要肯努力学,什么时候开始都不晚。如果您还想继续了解关于python编程的学习方法及素材等内容,可以点击本站其他文章学习。
‘肆’ 常用Python机器学习库有哪些
Python作为一门理想的集成语言,将各种技术绑定在一起,除了为用户提供更方便的功能之外,还是一个理想的粘合平台,在开发人员与外部库的低层次集成人员之间搭建连接,以便用C、C++实现更高效的算法。
使用Python编程可以快速迁移代码并进行改动,无须花费过多的精力在修改代码与代码规范上。开发者在Python中封装了很多优秀的依赖库,可以直接拿来使用,常见的机器学习库如下:
1、Scikit-Learn
Scikit-Learn基于Numpy和Scipy,是专门为机器学习建造的一个Python模块,提供了大量用于数据挖掘和分析的工具,包括数据预处理、交叉验证、算法与可视化算法等一系列接口。
Scikit-Learn基本功能可分为六个部分:分类、回归、聚类、数据降维、模型选择、数据预处理。其中集成了大量分类、回归、聚类功能,包括支持向量机、逻辑回归、随机森林、朴素贝叶斯等。
2、Orange3
Orange3是一个基于组件的数据挖掘和机器学习软件套装,支持Python进行脚本开发。它包含一系列的数据可视化、检索、预处理和建模技术,具有一个良好的用户界面,同时也可以作为Python的一个模块使用。
用户可通过数据可视化进行数据分析,包含统计分布图、柱状图、散点图,以及更深层次的决策树、分层聚簇、热点图、MDS等,并可使用它自带的各类附加功能组件进行NLP、文本挖掘、构建网络分析等。
3、XGBoost
XGBoost是专注于梯度提升算法的机器学习函数库,因其优良的学习效果及高效的训练速度而获得广泛的关注。XGBoost支持并行处理,比起同样实现了梯度提升算法的Scikit-Learn库,其性能提升10倍以上。XGBoost可以处理回归、分类和排序等多种任务。
4、NuPIC
NuPIC是专注于时间序列的一个机器学习平台,其核心算法为HTM算法,相比于深度学习,其更为接近人类大脑的运行结构。HTM算法的理论依据主要是人脑中处理高级认知功能的新皮质部分的运行原理。NuPIC可用于预测以及异常检测,使用面非常广,仅要求输入时间序列即可。
5、Milk
Milk是Python中的一个机器学习工具包。Milk注重提升运行速度与降低内存占用,因此大部分对性能敏感的代码都是使用C++编写的,为了便利性在此基础上提供Python接口。重点提供监督分类方法,如SVMs、KNN、随机森林和决策树等。
‘伍’ python是一种什么类型的编程语言
Python(英国发音:/?pa?θ?n/ 美国发音:/?pa?θɑ?n/)是一种广泛使用的解释型、高级编程、通用型编程语言,由吉多·范罗苏姆创造,第一版发布于1991年。可以视之为一种改良(加入一些其他编程语言的优点,如面向对象)的LISP。
Python的设计哲学强调代码的可读性和简洁的语法(尤其是使用空格缩进划分代码块,而非使用大括号或者关键词)。
相比于C++或Java,Python让开发者能够用更少的代码表达想法。不管是小型还是大型程序,该语言都试图让程序的结构清晰明了。
与Scheme、Ruby、Perl、Tcl等动态类型编程语言一样,Python拥有动态类型系统和垃圾回收功能,能够自动管理内存使用,并且支持多种编程范式,包括面向对象、命令式、函数式和过程式编程。其本身拥有一个巨大而广泛的标准库。
Python 解释器本身几乎可以在所有的操作系统中运行。Python的其中一个解释器CPython是用C语言编写的、是一个由社群驱动的自由软件,当前由Python软件基金会管理。
Python是完全面向对象的语言。函数、模块、数字、字符串都是对象。并且完全支持继承、重载、派生、多重继承,有益于增强源代码的复用性。Python支持重载运算符,因此Python也支持泛型设计。相对于Lisp这种传统的函数式编程语言,Python对函数式编程只提供了有限的支持。有两个标准库(functools, itertools)提供了与Haskell和Standard ML中类似的函数式程序设计工具。
虽然Python可能被粗略地分类为“脚本语言”,但实际上一些大规模软件开发计划例如Zope、Mnet及BitTorrent,Google也广泛地使用它。
Python的支持者较喜欢称它为一种高端动态编程语言,原因是“脚本语言”泛指仅作简单程序设计任务的语言,如shell script、VBScript等只能处理简单任务的编程语言,并不能与Python相提并论。
Python本身被设计为可扩展的。并非所有的特性和功能都集成到语言核心。Python提供了丰富的API和工具,以便程序员能够轻松地使用C、C++、Cython来编写扩展模块。Python编译器本身也可以被集成到其它需要脚本语言的程序内。
因此,有很多人把Python作为一种“胶水语言”使用。使用Python将其他语言编写的程序进行集成和封装。在Google内部的很多项目,例如Google应用服务引擎使用C++编写性能要求极高的部分,然后用Python或Java/Go调用相应的模块。
《Python技术手册》的作者马特利(Alex Martelp)说:“这很难讲,不过,2004年,Python已在Google内部使用,Google召募许多Python高手,但在这之前就已决定使用Python。他们的目的是尽量使用Python,在不得已时改用C++;在操控硬件的场合使用C++,在快速开发时候使用Python。”
Python的设计哲学是“优雅”、“明确”、“简单”。Python开发者的哲学是“用一种方法,最好是只有一种方法来做一件事”,也因此它和拥有明显个人风格的其他语言很不一样。在设计Python语言时,如果面临多种选择,Python开发者一般会拒绝花俏的语法,而选择明确没有或者很少有歧义的语法。这些准则被称为“Python格言”。在Python解释器内运行import this可以获得完整的列表。
相关推荐:《Python教程》以上就是小编分享的关于python是一种什么类型的编程语言的详细内容希望对大家有所帮助,更多有关python教程请关注环球青藤其它相关文章!
‘陆’ python分类算法有哪些
常见的分类算法有:
K近邻算法
决策树
朴素贝叶斯
SVM
Logistic Regression
‘柒’ Python 在编程语言中是什么地位为什么很多大学不教 Python
作者看着网上各种数据分析的知识泛滥, 但是没有什么体系,初学者不知道学哪些, 不知道学多少, 不知道学多深, 单纯一个python语言, 数据分析会用到那种程度, 不可能说像开发那样去学, numpy如果不是做算法工程师用到的知识并不多, pandas知识杂乱无章, 哪些才是最常用的功能等等, 作者不忍众生皆苦, 决定写一套python数据分析的全套教程, 目前已完成一部分课件的制作。需要说明的是, 作为一名数据分析师, 你应该先会一点Excel和SQL知识,相关的内容, 网上很多。但是, 即便你一点Excel和SQL都不会也不会影响这部分的学习 !目前作者整理的大纲如下:
第一章 python编程基础
1.1 python语言概述 1.2 数据科学神器--Anaconda介绍与安装 1.3 标准输入输出 1.4 变量定义与赋值 1.5 数据类型 1.6 流程控制语句 1.7 函数
1.8 面向对象编程 第二章 python数据清洗之numpy 2.1 核心ndarray对象的创建 2.2 ndarray对象常用的属性和方法 2.3 ndarray对象的索引和切片 2.4 ndarray对象的分割与合并 2.5 ndarray对象的广播(Broadcast) 2.6 numpy中的算术运算函数 2.7 numpy中的统计函数 2.8 numpy中的排序 搜索 计数 去重函数 2.9 numpy中的字符串函数 2.10 numpy中可能会用到的线性代数模块(后期机器学习会用到一点)
第三章 数据清洗神器pandas
3.1 pandas核心对象之Series对象的创建 常用属性和方法 3.2 pandas核心对象之DataFrame对象的创建 常用属性和方法 3.3 DataFrame对象的列操作和行操作 3.4 DataFrame对象的索引和切片 3.5 DataFrame对象的布尔索引 3.6 数据的读入与导出 3.7 groupby分组运算 3.8 数据合并与数据透视
第四章 数据可视化matplotlib seaborn pyecharts
4.1 包括常用图形的绘制,略
第五章 实战案列
5.1 拉勾网数据分析相关职位分析 5.2 boss直聘数据分析相关职位分析 5.3 珍爱网女性用户数据分析
第六章 机器学习
机器学习部分, 简单的算法会讲手写, 难的就用scikit-learn实现, 可能有小伙伴说, 这是调包侠干的, 小哥哥!小姐姐!哪有那么多公司, 那么多人自己干写算法的, 有几个人敢说他写的算法比scikit-learn写得好? 再说了, 你是数据分析师, 这些是你的工具, 解决问题的!不是一天到晚拉格朗日对偶性!先来个机器学习介绍, 然后如下:
6.1 K近邻算法 6.2 Kmeans算法 6.3 决策树 阶段案列:决策树案列(保险行业) 6.4 线性回归 岭回归 Lasso回归 6.5 逻辑回归 6.6 朴素贝叶斯 阶段案列:推荐系统(电商玩具) 6.7 随机森林 6.8 Adaboost 6.9 梯度提升树GBDT 6.10 极端梯度提升树Xgboost 6.11 支持向量机SVM 6.12 神经网络 阶段案例:Xgboost案例
------------------------------本节内容-----------------------------------------
python语言概述
在说python之前, 我们还是先来看看计算机软硬件的发展历史。
1 计算机硬件的发展历史
第一代计算机-电子管计算机(1946-1957)
无论如何,一项技术的突破必然伴随着其他行业的突破,简而言之,电子计算机的出现,前提必须有电子技术的进步,否则一切都是空谈!下面是我列举出计算机硬件的发展过程中, 一些比较重要的事件。
1906年, 美国的Lee De Forest 发明了电子管。在这之前造出数字电子计算机是不可能的。这为电子计算机的发 展奠定了基础。
1924年2月, 一个具有划时代意义的公司成立,IBM。
1935年, IBM推出IBM 601机。 这是一台能在一秒钟算出乘法的穿孔卡片计算机。这台机器无论在自然科学还是在商业意义上都具有重要的地位。大约造了1500台。
1937年, 英国剑桥大学的Alan M. Turing (1912-1954)出版了他的论文 ,并提出了被后人称之为"图灵机"的数学模型。
1937年, 美国贝尔试验室的George Stibitz展示了用继电器表示二进制的装置。尽管仅仅是个展示品,但却是世界上第一台二进制电子计算机。
1941年, Atanasoff和学生Berry完成了能解线性代数方程的计算机,取名叫"ABC"(Atanasoff-Berry Computer),用电容作存储器,用穿孔卡片作辅助存储器,那些孔实际上是"烧"上的。 时钟频率是60HZ,完成一次加法运算用时一秒。这就是ABC计算机。
1946年, 美国宾夕法尼亚大学,第一台通用电子计算机ENIAC (Electronic Numerical Integrator 和 Computer)诞生, 总工程师埃克特在当时年仅25岁。
这时的计算机的基本线路是采用电子管结构,程序从人工手编的 机器指令程序(0 1),过渡到符号语言(汇编),电子管计算机是计算工具革命性发展的开始,它所采用的进位制与程序存贮等基本技术思想,奠定了现代电子计算机技术基础。以冯·诺依曼为代表。
第二代计算机——晶体管计算机(时间1957~1964)
电子管时代的计算机尽管已经步入了现代计算机的范畴,但其体积之大、能耗之高、故障之多、价格之贵大大制约了它的普及应用。直到晶体管被发明出来,电子计算机才找到了腾飞的起点,一发而不可收……
20世纪50年代中期,晶体管的出现使计算机生产技术得到了根本性的发展,由晶体管代替电子管作为计算机的基础器件,用 磁芯或磁鼓作存储器,在整体性能上,比第一代计算机有了很大的提高。
第三代计算机——中小规模集成电路计算机(时间1964~1971)
20世纪60年代中期, 计算机发展历程随着半导体工艺的发展,成功制造了集成电路。中小规模集成电路成为计算机的主要部件,主存储器也渐渐过渡到 半导体存储器,使计算机的体积更小,大大降低了计算机计算时的功耗,由于减少了 焊点和 接插件,进一步提高了计算机的可靠性。
第四代计算机——大规模和超大规模集成电路计算机(时间1971~至今)
随着大规模集成电路的成功制作并用于计算机硬件生产过程,计算机的体积进一步缩小,性能进一步提高。集成更高的大容量半导体存储器作为内存储器,发展了并行技术和多机系统,出现了 精简指令集计算机(RISC),软件系统工程化、理论化,程序设计自动化。微型计算机在社会上的应用范围进一步扩大,几乎所有领域都能看到计算机的“身影”。
第五代计算机——泛指具有人工智能的计算机(至今~未来)
目前还没有明确地定义
2 简述计算机软件的发展历史
编程语言的发展
计算机软件系统的发展,也伴随着编程语言的发展。计算机程序设计语言的发展,经历了从机器语言、汇编语言到高级语言的历程。
机器语言:简单点说,机器本身也只认识0和1,电路无非就只有通和断两种状态,对应的二进制就是二进制的1和1。
汇编语言:汇编语言只是把一些特殊的二进制用特殊的符号表示,例如,机器要传送一个数据,假设“传送”这个指令对应的机器码是000101,则人们把000101用一个特殊符号,比如mov来表示,当人们要用这个指令时用mov就行,但是mov的本质还是000101,没有脱离硬件的范围,有可能这个指令不能在其他机器上用。
高级语言:高级语言完全脱离了硬件范畴,所有的语法更贴近人类的自然语言,人们只需要清楚高级语言的语法,写出程序就行了,剩下的交给编译器或者解释器去编译或者解释成机器语言就行了,看,这样就完全脱离了硬件的范畴,大大提高了程序的开发效率。接下来我们就来看看高级语言的发展,高级语言非常多,我们主要看看比较经典的几个。
高级语言的发展
B语言与Unix
20世纪60年代,贝尔实验室的研究员Ken Thompson(肯·汤普森)发明了B语言,并使用B编了个游戏 - Space Travel,他想玩自己这个游戏,所以他背着老板找到了台空闲的机器 - PDP-7,但是这台机器没有操作系统,于是Thompson着手为PDP-7开发操作系统,后来这个OS被命名为 - UNIX。
C语言
1971年,Ken Thompson(肯·汤普森)的同事D.M.Ritchie(DM里奇),也很想玩Space Travel,所以加入了Ken Thompson,合作开发UNIX,他的主要工作是改进Thompson的B语言。最终,在1972年这个新语言被称为C,取BCPL的第二个字母,也是B的下一个字母。
C语言和Unix
1973年,C主体完成。Ken Thompson和D.M.Ritchie迫不及待的开始用C语言完全重写了UNIX。此时编程的乐趣已经使他们完全忘记了那个“Space Travel”,一门心思的投入到了UNIX和C语言的开发中。自此,C语言和UNIX相辅相成的发展至今。
类C语言起源、历史
C++(C plus plus Programming Language) - 1983
还是贝尔实验室的人,Bjarne Stroustrup(本贾尼·斯特劳斯特卢普) 在C语言的基础上推出了C++,它扩充和完善了C语言,特别是在面向对象编程方面。一定程度上克服了C语言编写大型程序时的不足。
Python (Python Programming Language)--1991
1989年圣诞节期间,Guido van Rossum 在阿姆斯特丹,Guido van Rossum为了打发圣诞节的无趣,决心开发一个新的脚本解释程序,做为ABC语言的一种继承。之所以选中Python(大蟒蛇的意思)作为该编程语言的名字,是因为他是一个叫Monty Python的喜剧团体的爱好者。第一个Python的版本发布于1991年。
Java(Java Programming Language) - 1995
Sun公司的Patrick Naughton的工作小组研发了Java语言,主要成员是James Gosling(詹姆斯·高斯林)
C(C Sharp Programming Language) - 2000
Microsoft公司的Anders Hejlsberg(安德斯·海尔斯伯格)发明了C,他也是Delphi语言之父。
当然现在还有一些新语言,比如2009年Google的go语言,以及麻省理工的julia等。
3 为什么是Python
Python有哪些优点
1 语法简单 漂亮:我们可以说Python是简约的语言,非常易于读写。在遇到问题时,我们可以把更多的注意力放在问题本身上,而不用花费太多精力在程序语言、语法上。
2 丰富而免费的库:Python社区创造了各种各样的Python库。在他们的帮助下,你可以管理文档,执行单元测试、数据库、web浏览器、电子邮件、密码学、图形用户界面和更多的东西。所有东西包括在标准库,然而,除了它,还有很多其他的库。
3 开源:Python是免费开源的。这意味着我们不用花钱,就可以共享、复制和交换它,这也帮助Python形成了丰富的社区资源,使其更加完善,技术发展更快。
4 Python既支持面向过程,也支持面向对象编程。在面向过程编程中,程序员复用代码,在面向对象编程中,使用基于数据和函数的对象。尽管面向对象的程序语言通常十分复杂,Python却设法保持简洁。
5 Python兼容众多平台,所以开发者不会遇到使用其他语言时常会遇到的困扰。
Python有哪些作用
Python是什么都能做,但是我们学的是数据分析,我们看看在数据分析领域Python能做什么。
数据采集:以Scrapy 为代表的各类方式的爬虫
数据链接:Python有大量各类数据库的第三方包,方便快速的实现增删改查
数据清洗:Numpy、Pandas,结构化和非结构化的数据清洗及数据规整化的利器
数据分析:Scikit-Learn、Scipy,统计分析,科学计算、建模等
数据可视化:Matplotlib、Seaborn等等大量各类可视化的库
所以说总结, 为什么数据科学选的是python, 最重要就是两个原因:
1 语法简单漂亮
2 大量丰富免费的第三方库
‘捌’ python标准类型的分类
如果让我们描述标准类型,我们也许会称它们是Python的“基本内建数据对象原始类型"。“基本”是指这些类型都是Python提供的标准或核心类型。“内建”是由于这些类型是Python默认就提供的。“数据”是因为他们用于一般数据存储。“对象”是因为对象是数据和功能的默认抽象。“原始”是因为这些类型提供的是最底层的粒度数据存储。“类型”是因为他们就是数据类型。不过,上面这些描述实际上并没有告诉你每个类型如何工作,以及它们能发挥什么作用。事实上,几个类型共享某一些的特性,比如功能的实现手段,另一些类型则在访问数据值方面有一些共同之处。我们感兴趣的还有这些类型的数据如何更新,以及它们能提供什么样的存储。有3种不同的模型可以帮助我们对基本类型进行分类,每种模型都展示给我们这些类型之间的相互关系。这些模型可以帮助我们更好的理解类型之间的相互关系以及他们的工作原理。
‘玖’ Python 在编程语言中是什么地位为什么很多大学不教 Python
python既可用于前端还可用于后端开发。
Python是一种计算机程序设计语言。是一种动态的、面向对象的脚本语言,最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越来越多被用于独立的、大型项目的开发。
Python在设计上坚持了清晰划一的风格,这使得Python成为一门易读、易维护,并且被大量用户所欢迎的、用途广泛的语言。
设计者开发时总的指导思想是,对于一个特定的问题,只要有一种最好的方法来解决就好了。
这在由Tim Peters写的Python格言(称为The Zen of Python)里面表述为:There should be one-- and preferably only one --obvious way to do it。
这正好和Perl语言(另一种功能类似的高级动态语言)的中心思想TMTOWTDI(There's More Than One Way To Do It)完全相反。
(9)python分类扩展阅读:
Python的设计定位:
Python的设计哲学是“优雅”、“明确”、“简单”。因此,Perl语言中“总是有多种方法来做同一件事”的理念在Python开发者中通常是难以忍受的。
Python开发者的哲学是“用一种方法,最好是只有一种方法来做一件事”。在设计Python语言时,如果面临多种选择,Python开发者一般会拒绝花俏的语法,而选择明确的没有或者很少有歧义的语法。
由于这种设计观念的差异,Python源代码通常被认为比Perl具备更好的可读性,并且能够支撑大规模的软件开发。这些准则被称为Python格言。在Python解释器内运行import this可以获得完整的列表。
Python开发人员尽量避开不成熟或者不重要的优化。一些针对非重要部位的加快运行速度的补丁通常不会被合并到Python内。
所以很多人认为Python很慢。不过,根据二八定律,大多数程序对速度要求不高。在某些对运行速度要求很高的情况,Python设计师倾向于使用JIT技术,或者用使用C/C++语言改写这部分程序。可用的JIT技术是PyPy。
Python是完全面向对象的语言。函数、模块、数字、字符串都是对象。并且完全支持继承、重载、派生、多继承,有益于增强源代码的复用性。
Python支持重载运算符和动态类型。相对于Lisp这种传统的函数式编程语言,Python对函数式设计只提供了有限的支持。有两个标准库(functools, itertools)提供了Haskell和Standard ML中久经考验的函数式程序设计工具。
虽然Python可能被粗略地分类为“脚本语言”(script language),但实际上一些大规模软件开发计划例如Zope、Mnet及BitTorrent,Google也广泛地使用它。
Python的支持者较喜欢称它为一种高级动态编程语言,原因是“脚本语言”泛指仅作简单程序设计任务的语言,如shellscript、VBScript等只能处理简单任务的编程语言,并不能与Python相提并论。
参考资料来源:搜狗网络-Python
‘拾’ Python 数据可视化:分类特征统计图
上一课已经体验到了 Seaborn 相对 Matplotlib 的优势,本课将要介绍的是 Seaborn 对分类数据的统计,也是它的长项。
针对分类数据的统计图,可以使用 sns.catplot 绘制,其完整参数如下:
本课使用演绎的方式来学习,首先理解这个函数的基本使用方法,重点是常用参数的含义。
其他的参数,根据名称也能基本理解。
下面就依据 kind 参数的不同取值,分门别类地介绍各种不同类型的分类统计图。
读入数据集:
然后用这个数据集制图,看看效果:
输出结果:
毫无疑问,这里绘制的是散点图。但是,该散点图的横坐标是分类特征 time 中的三个值,并且用 hue='kind' 又将分类特征插入到图像中,即用不同颜色的的点代表又一个分类特征 kind 的值,最终得到这些类别组合下每个记录中的 pulse 特征值,并以上述图示表示出来。也可以理解为,x='time', hue='kind' 引入了图中的两个特征维度。
语句 ① 中,就没有特别声明参数 kind 的值,此时是使用默认值 'strip'。
与 ① 等效的还有另外一个对应函数 sns.stripplot。
输出结果:
② 与 ① 的效果一样。
不过,在 sns.catplot 中的两个参数 row、col,在类似 sns.stripplot 这样的专有函数中是没有的。因此,下面的图,只有用 sns.catplot 才能简洁直观。
输出结果:
不过,如果换一个叫角度来说,类似 sns.stripplot 这样的专有函数,表达简单,参数与 sns.catplot 相比,有所精简,使用起来更方便。
仔细比较,sns.catplot 和 sns.stripplot 两者还是稍有区别的,虽然在一般情况下两者是通用的。
因此,不要追求某一个是万能的,各有各的用途,存在即合理。
不过,下面的声明请注意: 如果没有非常的必要,比如绘制分区图,在本课中后续都演示如何使用专有名称的函数。
前面已经初步解释了这个函数,为了格式完整,这里再重复一下,即 sns.catplot 中参数 kind='strip'。
如果非要将此函数翻译为汉语,可以称之为“条状散点图”。以分类特征为一坐标轴,在另外一个坐标轴上,根据分类特征,将该分类特征数据所在记录中的连续值沿坐标轴描点。
从语句 ② 的结果图中可以看到,这些点虽然纵轴的数值有相同的,但是没有将它们重叠。因此,我们看到的好像是“一束”散点,实际上,所有点的横坐标都应该是相应特征分类数据,也不要把分类特征的值理解为一个范围,分散开仅仅是为了图示的视觉需要。
输出结果:
④ 相对 ② 的图示,在于此时同一纵轴值的都重合了——本来它们的横轴值都是一样的。实现此效果的参数是 jitter=0,它可以表示点的“振动”,如果默认或者 jitter=True,意味着允许描点在某个范围振动——语句 ② 的效果;还可设置为某个 0 到 1 的浮点,表示许可振动的幅度。请对比下面的操作。
输出结果:
语句 ② 中使用 hue='kind' 参数向图中提供了另外一个分类特征,但是,如果感觉图有点乱,还可以这样做:
输出结果:
dodge=True 的作用就在于将 hue='kind' 所引入的特征数据分开,相对 ② 的效果有很大差异。
并且,在 ⑤ 中还使用了 paletter='Set2' 设置了色彩方案。
sns.stripplot 函数中的其他有关参数,请读者使用帮助文档了解。
此函数即 sns.catplot 的参数 kind='swarm'。
输出结果:
再绘制一张简单的图,一遍研究这种图示的本质。
输出结果:
此图只使用了一个特征的数据,简化表象,才能探究 sns.swarmplot 的本质。它同样是将该特征中的数据,依据其他特征的连续值在图中描点,并且所有点在默认情况下不彼此重叠——这方面与 sns.stripplot 一样。但是,与之不同的是,这些点不是随机分布的,它们经过调整之后,均匀对称分布在分类特征数值所在直线的两侧,这样能很好地表示数据的分布特点。但是,这种方式不适合“大数据”。
sns.swarmplot 的参数似乎也没有什么太特殊的。下面使用几个,熟悉一番基本操作。
在分类维度上还可以再引入一个维度,用不同颜色的点表示另外一种类别,即使用 hue 参数来实现。
输出结果:
这里用 hue = 'smoker' 参数又引入了一个分类特征,在图中用不同颜色来区分。
如果觉得会 smoker 特征的值都混在一起有点乱,还可以使用下面方式把他们分开——老调重弹。
输出结果:
生成此效果的参数就是 dodge=True,它的作用就是当 hue 参数设置了特征之后,将 hue 的特征数据进行分类。
sns.catplot 函数的参数 kind 可以有三个值,都是用于绘制分类的分布图:
下面依次对这三个专有函数进行阐述。