python腳本之家
A. python指定url
今天簡單使用了一下python的re模塊和lxml模塊,分別利用的它們提供的正則表達式和xpath來解析頁面源碼從中提取所需的title,xpath在完成這樣的小任務上效率非常好,在這里之所以又使用了一下正則表達式是因為xpath在處理一些特殊的頁面的時候會出現亂碼的情況,當然這不是xpath的原因,而是頁面本身編碼,跟utf-8轉碼之間有沖突所致,這里看代碼:
python抽取指定url頁面的title方法(python獲取當前頁面的url) python 抽取 url title 腳本之家 第1張
# !/usr/bin/python
#-*-coding:utf-8-*-
'''
功能:抽取指定url的頁面內容中的title
'''
import re
import chardet
import urllib
from lxml import etree
def utf8_transfer(strs):
'''
utf8編碼轉換
'''
try:
if isinstance(strs, unicode):
strs = strs.encode('utf-8')
elif chardet.detect(strs)['encoding'] == 'GB2312':
strs = strs.decode("gb2312", 'ignore').encode('utf-8')
elif chardet.detect(strs)['encoding'] == 'utf-8':
strs = strs.decode('utf-8', 'ignore').encode('utf-8')
except Exception, e:
print 'utf8_transfer error', strs, e
return strs
def get_title_xpath(Html):
'''
用xpath抽取網頁Title
'''
Html = utf8_transfer(Html)
Html_encoding = chardet.detect(Html)['encoding']
page = etree.HTML(Html, parser=etree.HTMLParser(encoding=Html_encoding
B. 學習python,用什麼軟體
Python開發軟體可根據其用途不同分為兩種,一種是Python代碼編輯器,一種是Python集成開發工具,兩者的配合使用可以極大的提高Python開發人員的編程效率,以下是常用的幾款Python代碼編輯器和Python集成開發工具。
一、Python代碼編輯器
1. Sublime Text
Sublime Text是一款非常流行的代碼編輯器,支持Python代碼編輯,同時兼容所有平台,並且豐富的插件擴展了語法和編輯功能,迅捷小巧,具有良好的兼容性,很受編程人士的喜愛!
2. Vim
Vim和Vi是一種模型編輯器,它將文本查看從文本編輯中分離,VIM在原始VI之上做了諸多改進,包括可擴展模型和就地代碼構建,VIMScripts可用於各種Python開發任務!
3. Atom
Atom被稱為「21世紀可破解的文本編輯器」,可以兼容所有平台,擁有時尚的界面、文件系統瀏覽器和擴展插件市場,使用Electron構建,其運行時安裝的擴展插件可支持Python語言!
4. GNU Emacs
GNU Emacs是一款終身免費且兼容任何平台的代碼編輯器,使用強大的Lisp編程語言進行定製,並為Python開發提供各種定製腳本,是一款可擴展、可定製、自動記錄、實時顯示的編輯器,一直縈繞在UNIX周圍。
5. Visual Studio Code
Visual Studio Code是一款兼容Linux、Mac OS X和Windows 平台的全功能代碼編輯器,可擴展並且可以對幾乎所有任務進行配置,對於Python的支持可以在Visual Studio Code中安裝插件,只需快速點擊按鈕即可成功安裝,且可自動識別Python安裝和庫。
二、Python集成開發環境
1. PyCharm
PyCharm是唯一一款專門面向Python的全功能集成開發環境,同樣擁有付費版和免費開源版,PyCharm不論是在Windows、 Mac OS X系統中,還是在Linux系統中都支持快速安裝和使用。
PyCharm直接支持Python開發環境,打開一個新的文件然後就可以開始編寫代碼,也可以在PyCharm中直接運行和調試Python程序,它還支持源碼管理和項目,並且其擁有眾多便利和支持社區,能夠快速掌握學習使用!
2. Eclipse + PyDev
PyDev是Eclipse集成開發環境的一個插件,支持Python調試、代碼補全和互動式Python控制台等,在Eclipse中安裝PyDev非常便捷,只需從Eclipse中選擇「Help」點擊「Eclipse Marketplace」然後搜索PyDev,點擊安裝,必要的時候重啟Eclipse即可,對於資深Eclipse開發者來說,PyDev可以很輕松上手!
3. Visual Studio
Visual Studio是一款全功能集成開發平台,提供了免費版和付費版,可以支持各種平台的開發,且附帶了自己的擴展插件市場。在Visual Studio中可進行Python編程,並且支持Python智能感知、調試和其他工具,值得注意的是Visual Studio不支持Linux平台!
4. Spyder
Spyder是一款為了數據科學工作流做了優化的開源Python集成開發環境,它是附在Anaconda軟體包管理器發行版中的,Spyder擁有大部分集成開發環境該具備的功能,如強大語法高亮功能的代碼編輯器、Python代碼補全以及集成文件瀏覽器,其還具有其他Python編輯環境中所不具備的變數瀏覽器功能,十分適合使用Python的數據科學家們。
5. Thonny
Thonny是針對新手的一款集成開發環境,適用於全部主流平台,默認情況下,Thonny會和自帶捆綁的Python版本一起安裝,十分方便新手使用!
C. 怎麼安裝python
python環境配置:
1、首先訪問http://www.python.org/download/去下載最新的python版本。
2、安裝下載包,一路next。
3、為計算機添加安裝目錄搭到環境變數,如圖把python的安裝目錄添加到pth系統變數中即可。
4、測試python安裝是否成功,cmd打開命令行輸入 python 命令,如下圖即成功了
5、Hello World! 按照很多資料上寫的,輸入 print 'Hello World!'
居然是不成功,說語法錯誤!這是一個坑了,很多資料是都是python 1.*/2.*的寫法,現在我們裝的是3.2版本,要採用這種寫法 print ('Hello World!'),需要用括弧把字元串包含
6、經過以上測試,python環境算是裝好了,但是怎麼開發呢,難道用這種命令行?同樣有IDE可以應用,請下載Aptana Studio這款IDE工具,這款工具是在Eclipse的基礎上加插件集改的,支持python開發。到http://aptana.com/procts/studio3/download下載安裝,然後運行
或者也可以裝好Eclipse後自己搜索PyDev插件安裝。
7、ok,在開始之前,也要為這款IDE配置一下環境變數。
打開 窗口->首選項(Window->Preferences...) 對話框,從右側的樹形列表中選擇" PyDev"->"Interpreter Python", 點擊新建(New)按鈕,從Python的安裝路徑下選擇Python.exe,然後會彈出一個對話框讓你勾選System PYTHONPATH,點確定,大功告成。
也可以點Auto Config自動配置,據說會搜索安裝好的python自動配置,不過我沒成功。
8、新建一個項目
注意一下,因為安裝的python是3.2版本,所以這里的語法版本選擇3.0(默認2.6)
項目建立成功
9、在目錄下新建一個python文件,輸出Hello World!
輸入代碼
開始運行
然後在下方的Console面板中會出現結果
D. python中對已經排好序的詞語怎麼做詞雲
期末復習比較忙過段時間來專門寫scrapy框架使用,今天介紹如何用python生成詞雲,雖然網上有很多詞雲生成工具,不過自己用python來寫是不是更有成就感。
今天要生成的是勵志歌曲的詞雲,網路文庫裡面找了20來首,如《倔強》,海闊天空是,什麼的大家熟悉的。
所要用到的python庫有 jieba(一個中文分詞庫)、wordcould 、matplotlib、PIL、numpy。
首先我們要做的是讀取歌詞。我將歌詞存在了文件目錄下勵志歌曲文本中。
現在來讀取他
加入#encoding=gbk是為了防止後面操作報錯SyntaxError: Non-UTF-8 code starting with 'xc0'
然後我們用jieba分詞來對歌曲做分詞提取出詞頻高的詞
123456import jieba.analyseresult=jieba.analyse.textrank(lyric,topK=50,withWeight=True)keywords = dict()for i in result:keywords[i[0]]=i[1]print(keywords)得到結果:
12345678910111213from PIL import Image,ImageSequenceimport numpy as npimport matplotlib.pyplot as pltfrom wordcloud import WordCloud,ImageColorGeneratorimage= Image.open('./tim.jpg')graph = np.array(image)wc = WordCloud(font_path='./fonts/simhei.ttf',background_color='White',max_words=50,mask=graph)wc.generate_from_frequencies(keywords)image_color = ImageColorGenerator(graph)plt.imshow(wc)plt.imshow(wc.recolor(color_func=image_color))plt.axis("off")plt.show()保存生成圖片
1wc.to_file('dream.png')完整代碼:
以上這篇python生成詞雲的實現方法(推薦)就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持腳本之家。
E. python 判斷字元串是不是字母
函數:startswith()作用,判斷字元串是否以指定字元或子字元串開頭。