最近在研究Python,熟悉了一些基本语法和模块的使用;现在打算研究一下Python爬虫。学习主要是通过别人的博客和自己下载的一下文档进行的,自己也写一下博客作为记录学习自己过程吧。Python代码写起来和Java的感觉很不一样。Python爬虫主要使用的是urllib模块,Python2.x版本是...
分类:
编程语言 时间:
2014-12-07 20:19:36
阅读次数:
222
RT,NLP第一次实验,96人民日报语料分词+unigram和bigram词频统计。
一开始写了个RMM,用了各种序列排序,然后分词的算法用了简单的前缀暴力匹配,果然跑语料的时间根本无法估计、、
果断重写、、又找了一个blog,发现MM算法 一开始是想得太复杂了,导致循环太多,后来修改成简单版本的即可正常时间运行、
python代码:
# -*- coding: cp936 -*-
imp...
分类:
其他好文 时间:
2014-12-06 22:54:40
阅读次数:
250
在vim命令下编写python程序时,有时候要进行多行注释,比较麻烦。因为python不像c语言那样可以用/*xxxx*/进行多行注释,只能每一行用#来注释,如果有几百行那得注释到什么时候。除了老老实实的一行一行注释外,这里再分享几种方法:
第一种:把要注释的内容当作字符串,用‘xxx’注释掉;不过不建议用这种方法。
第二种:用函数把要注释的内容放到其中,不调用这个函数,那么这些要注释的内容就没有用了,这个比第一种好些。
第三种:这是我比较推荐的,也是今天同事...
分类:
编程语言 时间:
2014-12-05 17:37:31
阅读次数:
177
Python PEP8 Autoformat 插件这是用来按PEP8自动格式化代码的。可以在包管理器中安装。快捷键 CTRL+SHIFT+R 自动格式化python代码 1 { 2 "auto_complete": false, 3 "caret_style": "solid", 4...
分类:
编程语言 时间:
2014-12-04 21:20:06
阅读次数:
236
最近突然想做一个app,可以远程控制电脑的。。 有时候会在床上玩手机,突然想让开着的笔记本干些什么,又不想起来;app点个按钮就能搞定,就超爽了。。去年这个时候看过twisted,也写过小demo,加上对python也比较熟悉,毕竟写了一段时间python代码。。最近1年搞VC开发,整体C++。确....
分类:
其他好文 时间:
2014-12-04 17:09:27
阅读次数:
126
Python很简单,容易使用,开发效率很高,移植性很好,代码资源也很丰富,被广泛使用。但是Python代码编出来的动态库比较大,python库很全,缺点就是库比较大。
在内存占用方法,随着py库的引入,内存也成倍的增加,这里来讨论下如何来给Python瘦身,以及如何优化内存的占用。...
分类:
编程语言 时间:
2014-11-30 21:35:58
阅读次数:
214
Pylint 是什么Pylint 是一个 Python 代码分析工具,它分析 Python 代码中的错误,查找不符合代码风格标准(Pylint 默认使用的代码风格是 PEP 8,具体信息,请参阅参考资料)和有潜在问题的代码。目前 Pylint 的最新版本是 pylint-0.18.1。Pylint ...
分类:
其他好文 时间:
2014-11-25 23:18:58
阅读次数:
1334
dis — Disassembler for Python bytecode,即把python代码反汇编为字节码指令.
使用超级简单:python -m dis xxx.py
当我在网上看到while 1比while True快的时候,我感到很困惑,为何会有这种区别呢?
于是使用dis来深入.
假设est_while.py代码如下.
#coding=utf-8
while 1...
分类:
编程语言 时间:
2014-11-25 12:46:19
阅读次数:
155
官方文档: https://docs.python.org/2/library/timeit.html
源代码片: Lib/timeit.py
该模块提供了简单的方式来测量小段Python代码片.它有两种执行方式:命令行接口执行方式 和 Python程序代码可调的函数的方式.
该模块避免了很多常见的度量时间的陷进.可以参考由O’Reilly出版的Python Cookbook里面介绍算法章节。...
分类:
其他好文 时间:
2014-11-22 17:32:52
阅读次数:
162
混合高斯模型的EM求解,详细推导,并附Python代码。...
分类:
编程语言 时间:
2014-11-20 12:07:15
阅读次数:
267