当前位置:首页 » 编程语言 » python脚本之家

python脚本之家

发布时间: 2023-12-21 04:52:03

A. python指定url

今天简单使用了一下python的re模块和lxml模块,分别利用的它们提供的正则表达式和xpath来解析页面源码从中提取所需的title,xpath在完成这样的小任务上效率非常好,在这里之所以又使用了一下正则表达式是因为xpath在处理一些特殊的页面的时候会出现乱码的情况,当然这不是xpath的原因,而是页面本身编码,跟utf-8转码之间有冲突所致,这里看代码:

python抽取指定url页面的title方法(python获取当前页面的url) python 抽取 url title 脚本之家 第1张

# !/usr/bin/python
#-*-coding:utf-8-*-
'''
功能:抽取指定url的页面内容中的title
'''
import re
import chardet
import urllib
from lxml import etree
def utf8_transfer(strs):
'''
utf8编码转换
'''
try:
if isinstance(strs, unicode):
strs = strs.encode('utf-8')
elif chardet.detect(strs)['encoding'] == 'GB2312':
strs = strs.decode("gb2312", 'ignore').encode('utf-8')
elif chardet.detect(strs)['encoding'] == 'utf-8':
strs = strs.decode('utf-8', 'ignore').encode('utf-8')
except Exception, e:
print 'utf8_transfer error', strs, e
return strs
def get_title_xpath(Html):
'''
用xpath抽取网页Title
'''
Html = utf8_transfer(Html)
Html_encoding = chardet.detect(Html)['encoding']
page = etree.HTML(Html, parser=etree.HTMLParser(encoding=Html_encoding

B. 学习python,用什么软件

Python开发软件可根据其用途不同分为两种,一种是Python代码编辑器,一种是Python集成开发工具,两者的配合使用可以极大的提高Python开发人员的编程效率,以下是常用的几款Python代码编辑器和Python集成开发工具。
一、Python代码编辑器
1. Sublime Text
Sublime Text是一款非常流行的代码编辑器,支持Python代码编辑,同时兼容所有平台,并且丰富的插件扩展了语法和编辑功能,迅捷小巧,具有良好的兼容性,很受编程人士的喜爱!
2. Vim
Vim和Vi是一种模型编辑器,它将文本查看从文本编辑中分离,VIM在原始VI之上做了诸多改进,包括可扩展模型和就地代码构建,VIMScripts可用于各种Python开发任务!
3. Atom
Atom被称为“21世纪可破解的文本编辑器”,可以兼容所有平台,拥有时尚的界面、文件系统浏览器和扩展插件市场,使用Electron构建,其运行时安装的扩展插件可支持Python语言!
4. GNU Emacs
GNU Emacs是一款终身免费且兼容任何平台的代码编辑器,使用强大的Lisp编程语言进行定制,并为Python开发提供各种定制脚本,是一款可扩展、可定制、自动记录、实时显示的编辑器,一直萦绕在UNIX周围。
5. Visual Studio Code
Visual Studio Code是一款兼容Linux、Mac OS X和Windows 平台的全功能代码编辑器,可扩展并且可以对几乎所有任务进行配置,对于Python的支持可以在Visual Studio Code中安装插件,只需快速点击按钮即可成功安装,且可自动识别Python安装和库。
二、Python集成开发环境
1. PyCharm
PyCharm是唯一一款专门面向Python的全功能集成开发环境,同样拥有付费版和免费开源版,PyCharm不论是在Windows、 Mac OS X系统中,还是在Linux系统中都支持快速安装和使用。
PyCharm直接支持Python开发环境,打开一个新的文件然后就可以开始编写代码,也可以在PyCharm中直接运行和调试Python程序,它还支持源码管理和项目,并且其拥有众多便利和支持社区,能够快速掌握学习使用!
2. Eclipse + PyDev
PyDev是Eclipse集成开发环境的一个插件,支持Python调试、代码补全和交互式Python控制台等,在Eclipse中安装PyDev非常便捷,只需从Eclipse中选择“Help”点击“Eclipse Marketplace”然后搜索PyDev,点击安装,必要的时候重启Eclipse即可,对于资深Eclipse开发者来说,PyDev可以很轻松上手!
3. Visual Studio
Visual Studio是一款全功能集成开发平台,提供了免费版和付费版,可以支持各种平台的开发,且附带了自己的扩展插件市场。在Visual Studio中可进行Python编程,并且支持Python智能感知、调试和其他工具,值得注意的是Visual Studio不支持Linux平台!
4. Spyder
Spyder是一款为了数据科学工作流做了优化的开源Python集成开发环境,它是附在Anaconda软件包管理器发行版中的,Spyder拥有大部分集成开发环境该具备的功能,如强大语法高亮功能的代码编辑器、Python代码补全以及集成文件浏览器,其还具有其他Python编辑环境中所不具备的变量浏览器功能,十分适合使用Python的数据科学家们。
5. Thonny
Thonny是针对新手的一款集成开发环境,适用于全部主流平台,默认情况下,Thonny会和自带捆绑的Python版本一起安装,十分方便新手使用!

C. 怎么安装python

python环境配置:

1、首先访问http://www.python.org/download/去下载最新的python版本。

2、安装下载包,一路next。

3、为计算机添加安装目录搭到环境变量,如图把python的安装目录添加到pth系统变量中即可。

4、测试python安装是否成功,cmd打开命令行输入 python 命令,如下图即成功了

5、Hello World! 按照很多资料上写的,输入 print 'Hello World!'

居然是不成功,说语法错误!这是一个坑了,很多资料是都是python 1.*/2.*的写法,现在我们装的是3.2版本,要采用这种写法 print ('Hello World!'),需要用括号把字符串包含

6、经过以上测试,python环境算是装好了,但是怎么开发呢,难道用这种命令行?同样有IDE可以应用,请下载Aptana Studio这款IDE工具,这款工具是在Eclipse的基础上加插件集改的,支持python开发。到http://aptana.com/procts/studio3/download下载安装,然后运行

或者也可以装好Eclipse后自己搜索PyDev插件安装。

7、ok,在开始之前,也要为这款IDE配置一下环境变量。
打开 窗口->首选项(Window->Preferences...) 对话框,从右侧的树形列表中选择" PyDev"->"Interpreter Python", 点击新建(New)按钮,从Python的安装路径下选择Python.exe,然后会弹出一个对话框让你勾选System PYTHONPATH,点确定,大功告成。
也可以点Auto Config自动配置,据说会搜索安装好的python自动配置,不过我没成功。

8、新建一个项目

注意一下,因为安装的python是3.2版本,所以这里的语法版本选择3.0(默认2.6)

项目建立成功

9、在目录下新建一个python文件,输出Hello World!

输入代码

开始运行

然后在下方的Console面板中会出现结果

D. python中对已经排好序的词语怎么做词云

期末复习比较忙过段时间来专门写scrapy框架使用,今天介绍如何用python生成词云,虽然网上有很多词云生成工具,不过自己用python来写是不是更有成就感。

今天要生成的是励志歌曲的词云,网络文库里面找了20来首,如《倔强》,海阔天空是,什么的大家熟悉的。

所要用到的python库有 jieba(一个中文分词库)、wordcould 、matplotlib、PIL、numpy。

首先我们要做的是读取歌词。我将歌词存在了文件目录下励志歌曲文本中。

现在来读取他

12345#encoding=gbklyric= ''f=open('./励志歌曲歌词.txt','r')for i in f:lyric+=f.read()

加入#encoding=gbk是为了防止后面操作报错SyntaxError: Non-UTF-8 code starting with 'xc0'

然后我们用jieba分词来对歌曲做分词提取出词频高的词

123456import jieba.analyseresult=jieba.analyse.textrank(lyric,topK=50,withWeight=True)keywords = dict()for i in result:keywords[i[0]]=i[1]print(keywords)

得到结果:

12345678910111213from PIL import Image,ImageSequenceimport numpy as npimport matplotlib.pyplot as pltfrom wordcloud import WordCloud,ImageColorGeneratorimage= Image.open('./tim.jpg')graph = np.array(image)wc = WordCloud(font_path='./fonts/simhei.ttf',background_color='White',max_words=50,mask=graph)wc.generate_from_frequencies(keywords)image_color = ImageColorGenerator(graph)plt.imshow(wc)plt.imshow(wc.recolor(color_func=image_color))plt.axis("off")plt.show()

保存生成图片

1wc.to_file('dream.png')

完整代码:

#encoding=gbkimport jieba.analysefrom PIL import Image,ImageSequenceimport numpy as npimport matplotlib.pyplot as pltfrom wordcloud import WordCloud,ImageColorGeneratorlyric= ''f=open('./励志歌曲歌词.txt','r')for i in f:lyric+=f.read()result=jieba.analyse.textrank(lyric,topK=50,withWeight=True)keywords = dict()for i in result:keywords[i[0]]=i[1]print(keywords)image= Image.open('./tim.jpg')graph = np.array(image)wc = WordCloud(font_path='./fonts/simhei.ttf',background_color='White',max_words=50,mask=graph)wc.generate_from_frequencies(keywords)image_color = ImageColorGenerator(graph)plt.imshow(wc)plt.imshow(wc.recolor(color_func=image_color))plt.axis("off")plt.show()wc.to_file('dream.png')

以上这篇python生成词云的实现方法(推荐)就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

E. python 判断字符串是不是字母

函数:startswith()作用,判断字符串是否以指定字符或子字符串开头。

热点内容
电信帐号怎么改密码 发布:2025-01-24 05:11:22 浏览:846
笔记本x17配置怎么选 发布:2025-01-24 05:05:53 浏览:7
python如何封装 发布:2025-01-24 05:05:46 浏览:843
csgo怎么连接服务器 发布:2025-01-24 05:05:45 浏览:322
408哪个配置合适 发布:2025-01-24 05:01:54 浏览:882
oraclesql删除重复 发布:2025-01-24 05:01:12 浏览:408
少儿编程排行 发布:2025-01-24 04:40:46 浏览:698
搭建服务器怎么使用 发布:2025-01-24 04:19:34 浏览:444
平行进口霸道哪些配置有用 发布:2025-01-24 04:19:32 浏览:874
ngram算法 发布:2025-01-24 04:03:16 浏览:659