python
Search :

热门知识点: python 字符串
当前位置:python>>python教程

python教程

python 生成word中文字体

 我们今天用python生成word文件,主要是用到了PyRTF包生成rtf文件,由于PyRTF的包中文教程比较少,所以特此记录几篇文章,也希望给大家有一些帮助。

开始碰到一个问题,就是不能给word文件添加中文的字体,找了很久的资料,发现解决方法是:

 

 from PyRTF import *

...

我用python经常做的事情

我用python日常的工作:

1 做网站。

2 页面抓取数据分析。

3 中文词库,聚合分类等。

4 一般日常的工作。 

觉的比较好的Python包

    ...

urllib2添加header头

我们用python urllib2做采集时候,为了防止对方网站很容易发现,我们一般都会用程序模拟header头过去,就好像是一个用户来访问采集的网站,这样不容易被屏蔽。在python的官方文档上写了怎么添加,还是有同学有疑问,今天写出来希望能够帮助大家。

先导入模块,然后添加相关的属性。

import urllib2
opener = urllib2.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')]
opener.open('http://www.baidu.com/')...

python抓取中文网页乱码通用解决方法

我们经常通过python做采集网页数据的时候,会碰到一些乱码问题,今天给大家分享一个解决网页乱码,尤其是中文网页的通用方法。

首页我们需要安装chardet模块,这个可以通过easy_install 或者pip来安装。

安装完以后我们在控制台上导入模块,如果正常就可以。

比如我们遇到的一些ISO-8859-2也是可以通过下面的方法解决的。

直接上代码吧:

import urllib2
...

python 正则表达式re findall

python 正则表达式 re findall 方法能够以列表的形式返回能匹配的子串。 re.findall(pattern, string[, flags]): 搜索string,以列表形式返回全部能匹配的子串。先看个简单的代码: import re   p = re.compile(r'\d+') print p.findall('one1two2three3four4') &n

python 获取cookie

我们用python写网站的自动登录程序的时候需要创建一个cookies,我们可以利用python的cooklib模块。
比如:

#coding:utf-8
import urllib,urllib2,cookielib

cj = cookielib.LWPCookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
login_path = 'http://xxxxxxxxxx.com/login'

...

python中文视频教程

最近老王[URL=http://]python的付费培训[/URL]主要是以视频教程为主,习题和项目为辅,通过视频的讲解,让学员对基础知识点有一个很好的认识。并且通过习题和项目的形式巩固所学的知识点。

我们的python中文视频教程大纲:

python基础篇

1.虚拟机安装ubuntu开发环境,第一个程序:hello python!

2.linux基本命令以及开发环境。

3.python基本数据类型讲解。

4.python基本数据结构讲解。

5.python语句讲解。
...

Python邮件中文编码问题

近日用Python写一个小程序,从数据库(MS SQL)中读取数据,对数据进行组织后发送到邮箱,在数据内容有中文的地方始终报错,汉字使用UTF-8进行编码倒是不报错了,但发送到邮箱的内容,从数据库中读取出来的汉字却成乱码了,经多方查找资料,把文件的编码设置为cp936(即#coding=cp936),然后在发送邮件时使用gb2312编码。

如果你是utf-8的编码,那在文件的开头设置为#encoding=utf-8

urlparse获取url后面的参数

如果给定你一个URL,比如: http://url/api?param=2&param2=4 我们需要获取参数名和参数值的话,那可以用到python标准库urlparse import urlparsedef qs(url):    query = urlparse.urlparse(url).query    return di

判断网页编码

这段时间在用python处理网页抓取这块,互联网很多网页的编码格式都不一样,大体上是GBK,GB2312,UTF-8,等待。我们在获取
网页的的数据后,先要对网页的编码进行判断,才能把抓取的内容的编码统一转换为我们能够处理的编码。比如

jinja 模板教程

前段时间需要做一个模板处理的工作,因为需要在模板里面进行逻辑处理,简单的元组字符串替换和关键字字符串替换已经不能满足需求了。所以选择python的第3方模板引擎来实现这个功能。目前大家用的比较多的模板引擎主要是:mako和jinja。 我对比了下,发现jinja的模板引擎和django的语法还是比较相似的,于是我选择了jinja作为我的模板引擎。
...

常用软件包下载

python的标准库还有一些第3方库有的时候找起来还是比较麻烦的,特别是对新手的朋友。解决方法有两个:

1 你可以安装一下包管理,通过命令进行安装。或者可以

python xmlrpclib 完成百度google ping功能

最近在做SEO的时候,为了让发的外链能够快速的收录,想到了利用ping的功能,google和百度都有相关的ping介绍,有兴趣的朋友可以去看看相关的知识。实现ping功能除了可以用一些开源的博客程序,比如WP,它是可以在后台设置ping地址的,只要设置好以后,你发帖子,就会自动的通知搜索引擎,我的博客已经更新了,而今天我用的方法是不通过WP等带有ping功能的博客。

 

linux crontab

前段时间在忙一个项目,在linux下面用python执行同步更新网站的操作,比如规定每天多少点同步内容。还有就是在服务器起上需要一直跑几个采集脚本,来采集相关的数据,也遇到些问题,现在记录下,也算是总结吧,如果对大家有帮助,那更好。

首先是linux crontab,这个命令相当于linux计划命令,可以让你主机在设定的时间来做一些事情,比如你可以设定每天晚上2点备份数据库,或者生成日志等操作,在程序夜深人静里做事就是爽:)

它的格式是: * * * * * 命令 脚本 ,至于具体代表什么意思,大家可以去网上找下资料,这个挺多的,下面我分享下我遇到的问题和解决办法。
...

python mysql 转义

最近用python做项目的时候用到了mysql,把用python抓取的一些是数据放到mysql里去,但是有个问题,因为从外面抓取的数据有带'等其他的不规则的数据,如果你直接调用插入数据的方法会提示报错,这个时候就需要用到
python mysql 转义了。

我开始以为MySQLdb没有内置的方法,原本打算自己去一个过滤的算法,后来想了想mysql这个模块应该自身会带一些转义的方法,于是带着这个信念不断的找,通过help方法和dir的方法终于找到了,原来是:escape_string
...

python urllib下载网页

上次写了一个关于python下载网页的教程,今天想和大家聊另外一个的库:python urllib
很多网页处理都可以用urllib这个标准库来处理,下面我分享下平时用到的关于urllib方面的内容:

1如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用:
urllib.quote('要编码的字符串')

2如果你请求对方的网页,确不想被封IP的话,这个时候就要用到代理了,其实用urllib代理还是比较简单的:

proxies = {'http': '代理ip'}
opener = urllib.FancyURLopener(proxies)
f = opener.open("http://www.python.org")
f.read()

3 如果在GET需要一些参数的话,那我们需要对传入的参数进行编码。

params = urllib.urlencode({'spam': 1, 'eggs': 2, 'bacon': 0})
f = urllib.urlopen("http://www.xx.com/query?%s" % params)
print f.read()

想了解更多关于urllib方面的知识,可以多用用help命令来查看。

python 下载文件

之前给大家分享的多线程抓取网页,我觉的大家看了以后,应该

会对抓取网页有个很好的认识,不过这个只能用来抓取到网页的源代码,如果你想用做python 下载文件的话,上面的可能就不适合你

了,最近我在用python 做文件下载的时候就遇到这个问题了,不过最终得以解决,为了让大家以后碰过这个问题有更好的解决办法,我把代

码发出来:


from os.path import basename
from urlparse import urlsplit

def url2name(url):
    return basename(urlsplit(url)[2])

def download(url, localFileName = None):
    localName = url2name(url)
    req = urllib2.Request(url)
    r = urllib2.urlopen(req)
    if r.info().has_key('Content-Disposition'):
        # If the response has Content-Disposition, we take file name from it
        localName = r.info()['Content-Disposition'].split('filename=')[1]
        if localName[0] == '"' or localName[0] == "'":
            localName = localName[1:-1]
    elif r.url != url:
        # if we were redirected, the real file name we take from the final URL
        localName = url2name(r.url)
    if localFileName:
        # we can force to save the file as specified name
        localName = localFileName
    f = open(localName, 'wb')
    f.write(r.read())
    f.close()


download(r'你要下载的python文件的url地址')

赶快去试试把,可以在本地运行python去下载一些自己想要的pdf文件吧。

 

...

python mysql 安装包

记得原来分享了python 连接mysql的方法,最近我在另外一台电脑上安装了python2.5 和 mysql5.0

python beautifulsoup多线程分析抓取网页

  最近在用python做一些网页分析方面的事情,很久没更新博客了,今天补上。下面的代码用到了1 python 多线程2 网页分析库:beautifulsoup ,这个库比之前分享的python SGMLParser 网页分析库要强大很多,大家有兴趣可以去了解下。 #encoding=utf-8#@description:蜘蛛抓取内容。import Queueimport th

python查找网页关键词排名

 前段时间为了查找自己博客的关键词排名怎么样,特意用写了一个查找网页关键词排名的程序,感觉效果还不错。特别是查找关键词排名靠后的网页来说非常的方便,不用自己手动的去一个个的翻页,废话不说了,赶快上代码。

分页:[«]1[2][3][4][»]
老王python ® 版权所有 备案号:湘ICP备10012179号