pythonbs4安装
① python bs4 是个什么
这是一个模块,要通过如下语句安装:
pip install bs4
② python怎么安装beautifulsoup
在cmd(命令行)中输入以下命令:
python -m pip install bs4从bs4中调用beautifulsoup:
from bs4 import BeautifulSoup
③ beautifulsoup 安装完后 仍提示No mole named 'bs4
WritingE:ProgramFilespython27ArcGIS10.2Libsite-packageseautifulsoup4-4.
1.0-py2.7.egg-info
C:-32>python
Python3.5.1(v3.5.1:37a07cee5969,Dec62015,01:38:48)[MSCv.190032bit(In
tel)]onwin32
从上面两段话,可以看出,你将bs4模块安装到了python2.7版本,然后想在python3.5使用,那自然是没有这个模块。
解决方法 是将最新版本的python加到环境变量路径下,不过这个方法可能会影响你ArcGis的使用。
④ ubuntu16.04python怎么添加bs4包
1、Ctrl+Alt+T 打开命令终端,输入: vim –version |grep Python 查看vim是否支持python我这个vim只支持python3,不支持python。
2、安装py2包,在命令终端下输入: sudo apt-get install vim-nox-py2。
3、可以再次用vim –version|grep python 查看此时vim是否支持python,若支持到此为止,若不支持,请执行第四步。
4、在命令终端输入:sudo update-alternatives –config vim
我这里是第三项属于python,第二项属于python3,故想打开哪一项支持就输入它的编号就可以了(0,1,2,3)。
⑤ 如何在Visual Studio Code中安装Python库
首先最重要的一点,你得安装并且配置好Python运行环境,那么如何检查是否正确配置好运行环境呢,按Windows+R组合键在运行窗口输入cmd并在命令提示符窗口输入Python确定即可,如下动图所示:
正确安装Python环境后,接下来打开Visual Studio Code并打开集成终端,打开方式有两种,如下两个Gif动图所示:
打开集成终端后,我们在终端中进入Python安装目录下的的Scripts文件夹,由下图可以清楚的看到Python提供的几种安装库文件的方式,比如pip与easy_install,在这里我采用pip方式。
接下来,我将依次安装bs4、requests、lxml库来进行示范,如下:
由于我先前已经安装过bs4库,所以提示已存在,而在安装lxml库是提示出错,至于原因,还是那堵墙,解决办法就是找一个好的时间多多进行尝试(我当初试了4、5次才装好的)
6
最后补充一点,如果在安装时报错:
UnicodeDecodeError: 'ascii' codec can't decode byte 0xd7 in position 9: ordinal not in range(128)
请大家修改位于Python的安装路径下的Lib\mimetypes.py文件,在import下添加如下几行代码:
if sys.getdefaultencoding() != 'gbk':
reload(sys)
sys.setdefaultencoding('gbk')
接下来便可正常安装。
⑥ Python2 和 Python3下安装BeautifulSoup4
Windows键+R 输入cmd
⑦ python爬虫时,bs4无法读取网页标签中的文本
稍微说一下背景,当时我想研究蛋白质与小分子的复合物在空间三维结构上的一些规律,首先得有数据啊,数据从哪里来?就是从一个涵盖所有已经解析三维结构的蛋白质-小分子复合物的数据库里面下载。这时候,手动一个个去下显然是不可取的,我们需要写个脚本,能从特定的网站选择性得批量下载需要的信息。python是不错的选择。
import urllib #python中用于获取网站的模块
import urllib2, cookielib
有些网站访问时需要cookie的,python处理cookie代码如下:
cj = ***.cookiejar ( )
opener = ***.build_opener( ***.httpcookieprocessor(cj) )
***.install_opener (opener)
通常我们需要在网站中搜索得到我们需要的信息,这里分为二种情况:
1. 第一种,直接改变网址就可以得到你想要搜索的页面:
def GetWebPage( x ): #我们定义一个获取页面的函数,x 是用于呈递你在页面中搜索的内容的参数
url = 'http://xxxxx/***.cgi?&' + ‘你想要搜索的参数’ # 结合自己页面情况适当修改
page = ***.urlopen(url)
pageContent = ***.read( )
return pageContent #返回的是HTML格式的页面信息
2.第二种,你需要用到post方法,将你搜索的内容放在postdata里面,然后返回你需要的页面
def GetWebPage( x ): #我们定义一个获取页面的函数,x 是用于呈递你在页面中搜索的内容的参数
url = 'http://xxxxx/xxx' #这个网址是你进入搜索界面的网址
postData = ***.urlencode( { 各种‘post’参数输入 } ) #这里面的post参数输入需要自己去查
req= ***.request (url, postData)
pageContent = ***.urlopen (req). read( )
return pageContent #返回的是HTML格式的页面信息
在获取了我们需要的网页信息之后,我们需要从获得的网页中进一步获取我们需要的信息,这里我推荐使用 BeautifulSoup 这个模块, python自带的没有,可以自行网络谷歌下载安装。 BeautifulSoup 翻译就是‘美味的汤’,你需要做的是从一锅汤里面找到你喜欢吃的东西。
import re # 正则表达式,用于匹配字符
from bs4 import BeautifulSoup # 导入BeautifulSoup 模块
soup = BeautifulSoup(pageContent) #pageContent就是上面我们搜索得到的页面
soup就是 HTML 中所有的标签(tag)BeautifulSoup处理格式化后的字符串,一个标准的tag形式为:
hwkobe24
通过一些过滤方法,我们可以从soup中获取我们需要的信息:
(1) find_all ( name , attrs , recursive , text , **kwargs)
这里面,我们通过添加对标签的约束来获取需要的标签列表, 比如 ***.find_all ('p') 就是寻找名字为‘p’的 标签,而***.find_all (class = "tittle") 就是找到所有class属性为"tittle" 的标签,以及***.find_all ( class = ***.compile('lass')) 表示 class属性中包含‘lass’的所有标签,这里用到了正则表达式(可以自己学习一下,非常有用滴)
当我们获取了所有想要标签的列表之后,遍历这个列表,再获取标签中你需要的内容,通常我们需要标签中的文字部分,也就是网页中显示出来的文字,代码如下:
tagList = ***.find_all (class="tittle") #如果标签比较复杂,可以用多个过滤条件使过滤更加严格
for tag in tagList:
print ***.text
***.write ( str(***.text) ) #将这些信息写入本地文件中以后使用
(2)find( name , attrs , recursive , text , **kwargs )
它与 find_all( ) 方法唯一的区别是 find_all() 方法的返回结果是值包含一个元素的列表,而 find() 方法直接返回结果
(3)find_parents( ) find_parent( )
find_all() 和 find() 只搜索当前节点的所有子节点,孙子节点等. find_parents() 和 find_parent() 用来搜索当前节点的父辈节点,搜索方法与普通tag的搜索方法相同,搜索文档搜索文档包含的内容
(4)find_next_siblings() find_next_sibling()
这2个方法通过 .next_siblings 属性对当 tag 的所有后面解析的兄弟 tag 节点进代, find_next_siblings() 方法返回所有符合条件的后面的兄弟节点,find_next_sibling() 只返回符合条件的后面的第一个tag节点
(5)find_previous_siblings() find_previous_sibling()
这2个方法通过 .previous_siblings 属性对当前 tag 的前面解析的兄弟 tag 节点进行迭代, find_previous_siblings()方法返回所有符合条件的前面的兄弟节点, find_previous_sibling() 方法返回第一个符合条件的前面的兄弟节点
(6)find_all_next() find_next()
这2个方法通过 .next_elements 属性对当前 tag 的之后的 tag 和字符串进行迭代, find_all_next() 方法返回所有符合条件的节点, find_next() 方法返回第一个符合条件的节点
(7)find_all_previous() 和 find_previous()
这2个方法通过 .previous_elements 属性对当前节点前面的 tag 和字符串进行迭代, find_all_previous() 方法返回所有符合条件的节点, find_previous()方法返回第一个符合条件的节点
具体的使用方法还有很多,用到这里你应该可以解决大部分问题了,如果要更深入了解可以参考官方的使用说明哈!
⑧ 怎样安装python的bs4包
使用pip安装,进入python安装目录的script目录下。然后使用命令pip install 包名,就可以了
⑨ python3如何安装bs4
在python官网找到beautifulsoup模块的下载页面,点击"downloap"将该模块的安装包下载到本地。
相关推荐:《Python教程》
将该安装包解压,然后在打开cmd,并通过cmd进入到该安装包解压后的文件夹目录下。
在该文件目录下输入"python install setup.py",进行beautifulsoup4模块的安装,当安装完成后会看到有"Finished"字样。
安装完成后,在cmd中运行Python,然后输入"from bs4 import BeautifulSoup" 导入该模块,如果成功安装的话将没有任何打印信息,否则会有相应的错误信息打印。
直接通过pip安装
打开cmd,然后在cmd中输入命令“pip install beautifulsoup4”,就可以成功安装beautifulsoup4,不过该版本不一定会是4.4.1,版本会是当前python库中的最新版本。
⑩ python bs4压缩安装包
命令行直接pipinstallbs4即可
如果使用的anaconda,则使用condainstallbs4
或者直接去网上下载 :网页链接