Python中一些错误的改进和性能的优化

时间：2014-11-08 07:03:23 阅读：297 评论：0 收藏：0 [点我收藏+]

在之前的开发中，有很多错误或者是性能较差，后来查了资料进行了改正，这里可以分享一下：

1. mysql数据库问题

（1）mysql数据库如果之前有安装过的话，再次安装可能会发生服务已经启动这样的情况，这样的话可以先停止mysql服务，到注册表中删除这一项服务的内容，然后调用:sc delete mysql，再进行安装就可以了。

（2）mysql的安装方法：地址：http://www.mysql.com/downloads/mysql/，下载后将bin目录加入path变量，然后修改my.ini文件，这个具体配置后面再说（作用很大），然后以管理员权限运行cmd,cd到安装的bin目录，安装数据库服务，执行命令 mysqld -install 一般来说可以安装成功，打开服务 net start mysql 这样就可以了。登陆的话使用 mysql -u root -p 回车后输入密码就可以进行操作了。

（3）mysql中的中文乱码问题，这个困扰了我好几天，不过也是因为自己粗心，在用MySQLdb连接的时候没有设置参数charset =‘utf-8’，其实建议把Python的编码方式，以及数据库的编码等都设置为utf-8，如果有需要再进行encode（）和decode（）或者Unicode操作。另外，再查询资料的时候也看到其他的一些解决方法，这里也提一下但是没有测试：一个是重新加载编码格式的，因为Python是默认通过ASCII来解码的，这个其实并不一定，你可以在开头就指定使用utf-8，另外一个暴利修改MySＱＬ中connection.py 256行编码返回格式的，这个我试过不知是不是方法不对没有效果，另外就是使用creat_engine()的，这个在mysql里面的文档有很详细的说明，但是我也试了还是不行，其中有一个应该是re的格式不匹配的错误，有需要的可以去参考一下，还有就是解码或者编码等等，大概就这么几种方法。

（4）另外提到了my.ini文件的配置，这个主要是配置一些路径到安装路径（不用到bin）和data的路径。比较关键的是几个字符的设置和一些内存空间分配的设置。以下是摘入的其他博客内容：网址是 http://www.itokit.com/2011/1204/72689.html。这里我主要关注两点，一个是字符的设置，可以参考http://www.itokit.com/2011/1204/72689.html ，还有就是修改了字符的设置之后有可能需要在前面加loose-,据说是bug，没有深究，但是的确没加的时候无法启动服务；另外一个就是下面45行提到的max_allowed_packet，因为有一次我用元组批量查询的时候出现了连接的错误，查了一下可能是因为查询的语句过大导致的，这个mysql上面也有专门的介绍，于是就改了这个参数，然后ok了。小技巧： show variables like ‘‘ 查看配置状态，有时很有用。

--------------------------------------------------------------------------------

1. back_log

指定MySQL可能的连接数量。当MySQL主线程在很短的时间内得到非常多的连接请求，该参数就起作用，之后主线程花些时间（尽管很短）检查连接并且启动一个新线程。

back_log参数的值指出在MySQL暂时停止响应新请求之前的短时间内多少个请求可以被存在堆栈中。如果系统在一个短时间内有很多连接，则需要增大该参数的值，该参数值指定到来的TCP/IP连接的侦听队列的大小。不同的操作系统在这个队列大小上有它自己的限制。试图设定back_log高于你的操作系统的限制将是无效的。

2. basedir

MySQL主程序所在路径，即：--basedir参数的值。

3. bdb_cache_size

分配给BDB类型数据表的缓存索引和行排列的缓冲区大小，如果不使用DBD类型数据表，则应该在启动MySQL时加载 --skip-bdb 参数以避免内存浪费。

4.bdb_log_buffer_size

分配给BDB类型数据表的缓存索引和行排列的缓冲区大小，如果不使用DBD类型数据表，则应该将该参数值设置为0，或者在启动MySQL时加载 --skip-bdb 参数以避免内存浪费。

5.bdb_home

参见 --bdb-home 选项。

6. bdb_max_lock

指定最大的锁表进程数量（默认为10000），如果使用BDB类型数据表，则可以使用该参数。如果在执行大型事物处理或者查询时发现 bdb: Lock table is out of available locks or Got error 12 from ... 错误，则应该加大该参数值。

7. bdb_logdir

指定使用BDB类型数据表提供服务时的日志存放位置。即为 --bdb-logdir 的值。

8. bdb_shared_data

如果使用 --bdb-shared-data 选项则该参数值为On。

9. bdb_tmpdir

BDB类型数据表的临时文件目录。即为 --bdb-tmpdir 的值。

10. binlog_cache_size

为binary log指定在查询请求处理过程中SQL 查询语句使用的缓存大小。如果频繁应用于大量、复杂的SQL表达式处理，则应该加大该参数值以获得性能提升。

11. bulk_insert_buffer_size

指定 MyISAM 类型数据表表使用特殊的树形结构的缓存。使用整块方式(bulk)能够加快插入操作( INSERT ... SELECT, INSERT ... VALUES (...), (...), ..., 和 LOAD DATA INFILE) 的速度和效率。该参数限制每个线程使用的树形结构缓存大小，如果设置为0则禁用该加速缓存功能。注意：该参数对应的缓存操作只能用户向非空数据表中执行插入操作！默认值为 8MB。

12. character_set

MySQL的默认字符集。

13. character_sets

MySQL所能提供支持的字符集。

14. concurrent_inserts

如果开启该参数，MySQL则允许在执行 SELECT 操作的同时进行 INSERT 操作。如果要关闭该参数，可以在启动 mysqld 时加载 --safe 选项，或者使用 --skip-new 选项。默认为On。

15. connect_timeout

指定MySQL服务等待应答一个连接报文的最大秒数，超出该时间，MySQL向客户端返回 bad handshake。

16. datadir

指定数据库路径。即为 --datadir 选项的值。

17. delay_key_write

该参数只对 MyISAM 类型数据表有效。有如下的取值种类：

off: 如果在建表语句中使用 CREATE TABLE ... DELAYED_KEY_WRITES，则全部忽略

DELAYED_KEY_WRITES；

on: 如果在建表语句中使用 CREATE TABLE ... DELAYED_KEY_WRITES，则使用该选项（默认）；

all: 所有打开的数据表都将按照 DELAYED_KEY_WRITES 处理。

如果 DELAYED_KEY_WRITES 开启，对于已经打开的数据表而言，在每次索引更新时都不刷新带有

DELAYED_KEY_WRITES 选项的数据表的key buffer，除非该数据表关闭。该参数会大幅提升写入键值的速

度。如果使用该参数，则应该检查所有数据表：myisamchk --fast --force。

18.delayed_insert_limit

在插入delayed_insert_limit行后，INSERT DELAYED处理模块将检查是否有未执行的SELECT语句。如果有，在继续处理前执行允许这些语句。

19. delayed_insert_timeout

一个INSERT DELAYED线程应该在终止之前等待INSERT语句的时间。

20. delayed_queue_size

为处理INSERT DELAYED分配的队列大小（以行为单位）。如果排队满了，任何进行INSERT DELAYED的客户必须等待队列空间释放后才能继续。

21. flush

在启动MySQL时加载 --flush 参数打开该功能。

22. flush_time

如果该设置为非0值，那么每flush_time秒，所有打开的表将被关，以释放资源和sync到磁盘。注意：只建议在使用 Windows9x/Me 或者当前操作系统资源严重不足时才使用该参数！

23. ft_boolean_syntax

搜索引擎维护员希望更改允许用于逻辑全文搜索的操作符。这些则由变量 ft_boolean_syntax 控制。

24. ft_min_word_len

指定被索引的关键词的最小长度。注意：在更改该参数值后，索引必须重建！

25. ft_max_word_len

指定被索引的关键词的最大长度。注意：在更改该参数值后，索引必须重建！

26. ft_max_word_len_for_sort

指定在使用REPAIR, CREATE INDEX, or ALTER TABLE等方法进行快速全文索引重建过程中所能使用的关键词的最大长度。超出该长度限制的关键词将使用低速方式进行插入。加大该参数的值，MySQL将会建立更大的临时文件（这会减轻CPU负载，但效率将取决于磁盘I/O效率），并且在一个排序取内存放更少的键值。

27. ft_stopword_file

从 ft_stopword_file 变量指定的文件中读取列表。在修改了 stopword 列表后，必须重建 FULLTEXT 索引。

28. have_innodb

YES: MySQL支持InnoDB类型数据表； DISABLE: 使用 --skip-innodb 关闭对InnoDB类型数据表的支持。

29. have_bdb

YES: MySQL支持伯克利类型数据表； DISABLE: 使用 --skip-bdb 关闭对伯克利类型数据表的支持。

30. have_raid

YES: 使MySQL支持RAID功能。

31. have_openssl

YES: 使MySQL支持SSL加密协议。

32. init_file

指定一个包含SQL查询语句的文件，该文件在MySQL启动时将被加载，文件中的SQL语句也会被执行。

33. interactive_timeout

服务器在关上它前在一个交互连接上等待行动的秒数。一个交互的客户被定义为对mysql_real_connect()使用CLIENT_INTERACTIVE选项的客户。也可见wait_timeout。

34. join_buffer_size

用于全部联合(join)的缓冲区大小(不是用索引的联结)。缓冲区对2个表间的每个全部联结分配一次缓冲区，当增加索引不可能时，增加该值可得到一个更快的全部联结。（通常得到快速联结的最佳方法是增加索引。）

35. key_buffer_size

用于索引块的缓冲区大小，增加它可得到更好处理的索引(对所有读和多重写)，到你能负担得起那样多。如果你使它太大，系统将开始变慢慢。必须为OS文件系统缓存留下一些空间。为了在写入多个行时得到更多的速度。

36. language

用户输出报错信息的语言。

37. large_file_support

开启大文件支持。

38. locked_in_memory

使用 --memlock 将mysqld锁定在内存中。

39. log

记录所有查询操作。

40. log_update

开启update log。

41. log_bin

开启 binary log。

42. log_slave_updates

如果使用链状同步或者多台Slave之间进行同步则需要开启此参数。

43. long_query_time

如果一个查询所用时间超过该参数值，则该查询操作将被记录在Slow_queries中。

44. lower_case_table_names

1: MySQL总使用小写字母进行SQL操作；

0: 关闭该功能。

注意：如果使用该参数，则应该在启用前将所有数据表转换为小写字母。

45. max_allowed_packet

一个查询语句包的最大尺寸。消息缓冲区被初始化为net_buffer_length字节，但是可在需要时增加到max_allowed_packet个字节。该值太小则会在处理大包时产生错误。如果使用大的BLOB列，必须增加该值。

46. net_buffer_length

通信缓冲区在查询期间被重置到该大小。通常不要改变该参数值，但是如果内存不足，可以将它设置为查询期望的大小。（即，客户发出的SQL语句期望的长度。如果语句超过这个长度，缓冲区自动地被扩大，直到max_allowed_packet个字节。）

47. max_binlog_cache_size

指定binary log缓存的最大容量，如果设置的过小，则在执行复杂查询语句时MySQL会出错。

48. max_binlog_size

指定binary log文件的最大容量，默认为1GB。

49. max_connections

允许同时连接MySQL服务器的客户数量。如果超出该值，MySQL会返回Too many connections错误，但通常情况下，MySQL能够自行解决。

50. max_connect_errors

对于同一主机，如果有超出该参数值个数的中断错误连接，则该主机将被禁止连接。如需对该主机进行解禁，执行：FLUSH HOST;。

51. max_delayed_threads

不要启动多于的这个数字的线程来处理INSERT DELAYED语句。如果你试图在所有INSERT DELAYED线程在用后向一张新表插入数据，行将被插入，就像DELAYED属性没被指定那样。

52. max_heap_table_size

内存表所能使用的最大容量。

53. max_join_size

如果要查询多于max_join_size个记录的联合将返回一个错误。如果要执行没有一个WHERE的语句并且耗费大量时间，且返回上百万行的联结，则需要加大该参数值。

54. max_sort_length

在排序BLOB或TEXT值时使用的字节数(每个值仅头max_sort_length个字节被使用；其余的被忽略)。

55. max_user_connections

指定来自同一用户的最多连接数。设置为0则代表不限制。

56. max_tmp_tables

（该参数目前还没有作用）。一个客户能同时保持打开的临时表的最大数量。

57. max_write_lock_count

当出现max_write_lock_count个写入锁定数量后，开始允许一些被锁定的读操作开始执行。避免写入锁定过多，读取操作处于长时间等待状态。

58. myisam_recover_options

即为 --myisam-recover 选项的值。

--------------------------------------------------------------------------------

（5）executemany（SQL，tuple）方法是个很好的方法，主要是可以提升写入的速度，也比较适合Python使用。Python可以先格式化字符串，然后再用后面元组传入。注意是后面元组的元素也要是元组，而且和格式化字符的个数要匹配，另外适时的提交connection.commit()数据，当然最后还要记得关闭游标和连接。

（6）避免打印出很大的列表，因为一开始我往数据库插入很大的一个列表，为了方便，我就print了一下，结果发现程序消耗的大部分时间都花在这里面了，可以用time.time()方法算出时间消耗。

（7）我认为的性能提升的几个点，一是批量操作，批量提交，二是修改前面的很多参数，三是减少程序中不必要的运算和输出。当然，和网上那些1000W数据几秒就搞定的差太远了，我现在的速度是从网上数据库或者从本地Excel读取，插入mysql，450W数据在5-10分钟之间，千万级别的不会超20分钟，对于我来说已经够了，但是如果能够更快，那为什么不呢？这个还需要学习。

2. Python中遇到的一些问题

（1）字符串的问题，其实比较头痛，这里就是时刻注意你的字符串是什么编码，是什么格式的就好了，必要的时候type（）一下，或者可以 type（s） in [type(u")] ,可以判断是否为Unicode。

（2）元组问题，元组是不可变的序列，比较麻烦你可以由两个元组相加得到一个新元组的使用，要注意不要在使用中试图改变元组；另外，更多的使用list会有更好的灵活性，当然在不可变的需求下还是使用tuple比较好。

Python中一些错误的改进和性能的优化

标签：style http io color ar os 使用 sp for

原文地址：http://www.cnblogs.com/me-qk/p/4082666.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行