pythonxmltodict
① 如何把 Web 页面上抓取下来的海量文本信息从非结构化信息变成结构化信息
普通来讲对我们而言,需求抓取的是某个网站或者某个应用的内容,提取有用的价值。内容普通分为两局部,非构造化的数据 和 构造化的数据。
非构造化数据:先有数据,再有构造
构造化数据:先有构造、再有数据
不同类型的数据,我们需求采用不同的方式来处置。
非构造化的数据处置
文本、电话号码、邮箱地址
正则表达式
HTML 文件
正则表达式
XPath
CSS选择器
构造化的数据处置
JSON 文件
JSON Path
转化成python类型停止操作(json类)
XML 文件
转化成Python类型(xmltodict)
XPath
CSS选择器
正则表达式
实践上python爬虫一共就四个主要步骤:
明白目的 (要晓得你准备在哪个范围或者网站去搜索)
爬 (将一切的网站的内容全部爬下来)
取 (去掉对我们没用途的数据)
处置数据(依照我们想要的方式存储和运用)
② 什么工具可以将xml转换为python
安装xmltodict,可以直接将xml转成python 字典类型
③ 值得收藏的Python第三方库
网络站点爬取
爬取网络站点的库Scrapy – 一个快速高级的屏幕爬取及网页采集框架。cola – 一个分布式爬虫框架。Demiurge – 基于PyQuery 的爬虫微型框架。feedparser – 通用 feed 解析器。Grab – 站点爬取框架。MechanicalSoup – 用于自动和网络站点交互的 Python 库。portia – Scrapy 可视化爬取。pyspider – 一个强大的爬虫系统。RoboBrowser – 一个简单的,Python 风格的库,用来浏览网站,而不需要一个独立安装的浏览器。
交互式解析器
交互式 Python 解析器。
IPython – 功能丰富的工具,非常有效的使用交互式 Python。
bpython- 界面丰富的 Python 解析器。
ptpython – 高级交互式Python解析器, 构建于python-prompt-toolkit 之上。
图像处理
用来操作图像的库.
pillow – Pillow 是一个更加易用版的 PIL。
hmap – 图像直方图映射。
imgSeek – 一个使用视觉相似性搜索一组图片集合的项目。
nude.py – 裸体检测。
pyBarcode – 不借助 PIL 库在 Python 程序中生成条形码。
pygram – 类似 Instagram 的图像滤镜。
python-qrcode – 一个纯 Python 实现的二维码生成器。
Quads – 基于四叉树的计算机艺术。
scikit-image – 一个用于(科学)图像处理的 Python 库。
thumbor – 一个小型图像服务,具有剪裁,尺寸重设和翻转功能。
wand – MagickWand的Python 绑定。MagickWand 是 ImageMagick的 C API 。
HTTP
使用HTTP的库。
requests – 人性化的HTTP请求库。
grequests – requests 库 + gevent ,用于异步 HTTP 请求.
httplib2 – 全面的 HTTP 客户端库。
treq – 类似 requests 的Python API 构建于 Twisted HTTP 客户端之上。
urllib3 – 一个具有线程安全连接池,支持文件 post,清晰友好的 HTTP 库。
Python实现的数据库。
pickleDB – 一个简单,轻量级键值储存数据库。
PipelineDB – 流式 SQL 数据库。
TinyDB – 一个微型的,面向文档型数据库。
ZODB – 一个 Python 原生对象数据库。一个键值和对象图数据库。
Web 框架
全栈 web 框架。
Django – Python 界最流行的 web 框架。
awesome-django系列
Flask – 一个 Python 微型框架。
https://github.com/humiaozuzu/awesome-flask系列
Pyramid – 一个小巧,快速,接地气的开源Python web 框架。
awesome-pyramid系列
Bottle – 一个快速小巧,轻量级的 WSGI 微型 web 框架。
CherryPy – 一个极简的 Python web 框架,服从 HTTP/1.1 协议且具有WSGI 线程池。
TurboGears – 一个可以扩展为全栈解决方案的微型框架。
web.py – 一个 Python 的 web 框架,既简单,又强大。
web2py – 一个全栈 web 框架和平台,专注于简单易用。
Tornado – 一个web 框架和异步网络库。
HTML处理
处理 HTML和XML的库。
BeautifulSoup – 以 Python 风格的方式来对 HTML 或 XML 进行迭代,搜索和修改。
bleach – 一个基于白名单的 HTML 清理和文本链接库。
cssutils – 一个 Python 的 CSS 库。
html5lib – 一个兼容标准的 HTML 文档和片段解析及序列化库。
lxml – 一个非常快速,简单易用,功能齐全的库,用来处理 HTML 和 XML。
MarkupSafe – 为Python 实现 XML/HTML/XHTML 标记安全字符串。
pyquery – 一个解析 HTML 的库,类似 jQuery。
untangle – 将XML文档转换为Python对象,使其可以方便的访问。
xhtml2pdf – HTML/CSS 转 PDF 工具。
xmltodict – 像处理 JSON 一样处理 XML。
游戏开发
超赞的游戏开发库。
Cocos2d – cocos2d 是一个用来开发 2D 游戏, 示例和其他图形/交互应用的框架。基于 pyglet。
Panda3D – 由迪士尼开发的 3D 游戏引擎,并由卡内基梅陇娱乐技术中心负责维护。使用C++编写, 针对 Python 进行了完全的封装。
Pygame – Pygame 是一组 Python 模块,用来编写游戏。
PyOgre – Ogre 3D 渲染引擎的 Python 绑定,可以用来开发游戏和仿真程序等任何 3D 应用。
PyOpenGL – OpenGL 的 Python 绑定及其相关 APIs。
PySDL2 – SDL2 库的封装,基于 ctypes。
RenPy – 一个视觉小说(visual novel)引擎。
④ Python 常用的标准库以及第三方库有哪些
参考:知乎
Python 常用的标准库以及第三方库
standard libs:
itertools
functools 学好python有必要掌握上面这两个库吧,
re 正则
subprocess 调用shell命令的神器
pdb 调试
traceback 调试
pprint 漂亮的输出
logging 日志
threading和multiprocessing 多线程
urllib/urllib2/httplib http库,httplib底层一点,推荐第三方的库requests
os/sys 系统,环境相关
Queue 队列
pickle/cPickle 序列化工具
hashlib md5, sha等hash算法
cvs
json/simplejson python的json库,据so上的讨论和benchmark,simplejson的性能要高于json
timeit 计算代码运行的时间等等
cProfile python性能测量模块
glob 类似与listfile,可以用来查找文件
atexit 有一个注册函数,可用于正好在脚本退出运行前执行一些代码
dis python 反汇编,当对某条语句不理解原理时,可以用dis.dis 函数来查看代码对应的python 解释器指令等等。
3th libs:
paramiko ssh python 库
selenium 浏览器自动化测试工具selenium的python 接口
lxml python 解析html,xml 的神器
mechanize Stateful programmatic web browsing
pycurl cURL library mole for Python
Fabric Fabric is a Python (2.5 or higher) library and command-line tool for streamlining the use of SSH for application deployment or systems administration tasks.
xmltodict xml 转 dict,真心好用
urllib3 和 requests: 当然其实requests就够了 Requests: HTTP for Humans
flask web 微框架
ipdb 调试神器,同时推荐ipython!结合ipython使用
redis redis python接口
pymongo mongodbpython接口
PIL python图像处理
mako python模版引擎
numpy , scipy 科学计算
matplotlib 画图
scrapy 爬虫
django/tornado/web.py/web2py/uliweb/flask/twisted/bottle/cherrypy.等等 python web框架/服务器
sh 1.08 — sh v1.08 documentation 用来运行shell 模块的 极佳选择
⑤ 用python怎么实现json和xml的互转
ajax是属于template里面的一个异步请求而已,如果你在views里面传回来是你说的“实体对像(models)”的话,我就有点搞不明白了。。。
不知道你在那个view方法直接return的是什么?
如果使用json处理对象的话请使用:
from django.http import HttpResponse
from models import mymodels
import simplejson
...
def ajax(request):
a = mymodels.objects.all()[0]
'''
此处假设a中有name、age参数
model对象是不能直接作为json可以处理,必须先转换为dict类型
'''
result = {}
result['name'] = a.name
result['age'] = a.age
result = simplejson.mps(result)
return HttpResponse(result)
此时用ajax访问这个试图返回的内容就是:
上面这种办法不是很好,建议先写一个template模板专门来显示此model内容。
假设模板ajax.html的内容为:
===================ajax.html===============
name: }<br />
age: }
=======================================
views视图如下:
from django.http import HttpResponse
from models import mymodels
from django.shortcuts import render_to_response
...
def ajax(request):
a = mymodels.objects.all()[0]
return render_to_response("ajax.html",)
此时用ajax访问这个视图返回的内容就是:
name: Jim Green
age: 14
以上的代码可能会有错误,因为是随手写的,希望能够帮到你
====修改了一下====
模板文件名打错了。。。
修改了一下就到了楼上的下面了,楼上你也太没水准了。直接复制
=====修改=====
使用model.__dict__属性可以获得字典,希望能帮到你
你的串号我已经记下,采纳后我会帮你制作
⑥ Python编程网页爬虫工具集介绍
【导语】对于一个软件工程开发项目来说,一定是从获取数据开始的。不管文本怎么处理,机器学习和数据发掘,都需求数据,除了通过一些途径购买或许下载的专业数据外,常常需求咱们自己着手爬数据,爬虫就显得格外重要,那么Python编程网页爬虫东西集有哪些呢?下面就来给大家一一介绍一下。
1、 Beautiful Soup
客观的说,Beautifu Soup不完满是一套爬虫东西,需求协作urllib运用,而是一套HTML / XML数据分析,清洗和获取东西。
2、Scrapy
Scrapy相Scrapy, a fast high-level screen scraping and web crawling framework
for
Python.信不少同学都有耳闻,课程图谱中的许多课程都是依托Scrapy抓去的,这方面的介绍文章有许多,引荐大牛pluskid早年的一篇文章:《Scrapy
轻松定制网络爬虫》,历久弥新。
3、 Python-Goose
Goose最早是用Java写得,后来用Scala重写,是一个Scala项目。Python-Goose用Python重写,依靠了Beautiful
Soup。给定一个文章的URL, 获取文章的标题和内容很便利,用起来非常nice。
以上就是Python编程网页爬虫工具集介绍,希望对于进行Python编程的大家能有所帮助,当然Python编程学习不止需要进行工具学习,还有很多的编程知识,也需要好好学起来哦,加油!
⑦ 初学者请问python下安装xmltodict的有关问题
D:\xmltodict-0.9.0>C:\Python26\python.exe setup.py
Extracting in c:\users\abc\appdata\local\temp\tmpwddh8e
Now working in c:\users\abc\appdata\local\tmpwdhh8e\setuptools-1.1.6
Building a Setuptools egg in D:\xmltodict-0.9.0
warning:no files found matching 'entries*' under directory 'setuptools\tests'
warning:no files found matching 'Makefile'under directory 'docs'
warning:no files found matching 'indexsidebar.html'under directory 'docs'
D:\xmltodict-0.9.0\setuptools-1.1.6 -py2.6.egg
usaage:setup.py[golbal_opts]cmd1[cmd1_opts][cmd2[cmd2_opts]...]
or :setup.py --help[cmd1 cmd2...]
or :setup.py --help-commands
or :setup.py cmd --help
error:no commands supplied
错误信息不是明白告诉你缺参数嘛,一般最简单的命令行也要是python.exe setup.py install
⑧ 初学者请问python下安装xmltodict的有关问题
D:\xmltodict-0.9.0>C:\Python26\python.exe setup.py Extracting in c:\users\abc\appdata\local\temp\tmpwddh8e Now working in c:\users\abc\appdata\local\tmpwdhh8e\setuptools-1.1.6 Building a Setuptools egg in D:\xmltodict-0.9.0
⑨ Python如何实现阳历转阴历的方法分享
1. 如果你想看怎么实现,你可以去看xmltodict这个第三方库,
2. 如果你想直接使用,也是去看xnltodict这个库,
3. 总的来说,就是你可以用xmltodict实现,先转换成python标准的dict,再用python自带的json.mps()转换即可