Python笔记之a=[0]*x格式的含义及说明

 

python a = [0]*x格式的含义

a为一个含有x个字符串的列表

例如:

import sys
a = "12352523452334"
num = len(a)
k = int(num/3)
print(k)
sub = [0]*k
for i in range(k):
    sub[i] = a[i*3:i*3+3]
    isString = isinstance(sub,list)
    print(isString)
    print(sub[i])
print(len(sub))

4
True
123
True
525
True
234
True
523
4

 

python使用技巧与爬过的坑

1 dict的使用

python中的字典应该是许多朋友常用的一种数据结构,其数据结构如下:

{key: value}

这里主要列几个字典使用的技巧。

1.1 dict的删改查

其实对于dict的删改查都需要用到查询,比如改,就是先查询到某个键值对,然后再做更改操作。

可能许多初学者对于字典的访问是如下几种方式:

for k, v in d.items():
    balabala
for v in d.values():
    balabala

其实这是一种特别浪费性能的操作方式,因为python中的dict是通过Hash方式来查询键的。简单来说就是查询键的时间复杂度是O ( 1 ) O(1)O(1),而查询值的时间复杂度是O ( n ) O(n)O(n)。放在代码里面来说,就是:

for k in d.keys():

这种查询方式是O ( 1 ) O(1)O(1)的时间复杂度,而:

for k, v in d.items():

或者:

for v in d.values():

是O ( n ) O(n)O(n)的时间复杂度。

所以为了节省查询时间,我们如果要对值进行操作,都是如下:

for k in d.keys():
    val = d[k]

而python三大数据结构:列表、元组、字典,就只有字典的键的查询是O ( 1 ) O(1)O(1)的时间复杂度,其余的都是O ( n ) O(n)O(n)的时间复杂度。

1.2 dict的键

既然上面已经说到了dict的键是hash查询的,所以dict的键有严格的要求,就是hashable的数据才能作为dict的键。

那么何为hashable?简单来说,就是在运行过程中不可修改的。

就比如列表就是可以修改的,因为列表可以随时进行append等操作,字典也是可以修改的,比如随时可以进行pop等操作。

那么什么是hashable的呢?常用的字符串、数字这些都可以,还有一个数据结构是hashable的,就是元组,因为元组是无法被修改的。所以当你想要存储一组数据作为键值的时候,可以考虑将这组数据转换成元组,毕竟list和dict是可以相互切换的嘛。

2 numpy

2.1 array

这是我最近编码过程中遇到的一个坑,就是array的赋值操作。我们通常的赋值操作就是:

a = b

但是对于numpy的ndarray对象,这种赋值不仅会将值赋过去,还会把内存地址赋值过去,比如如下代码:

import numpy as np
a = np.array([1, 2, 3])
print("id(a):", id(a))
b = a
print("id(b):", id(b))
print(id(a) == id(b))

输出结果如下:

id(a): 2721844244768
id(b): 2721844244768
True

也就是说,如果你只是使用a = b这种操作,那么你在对b进行操作的时候也会更改a,但是如果在某个使用场景,你需要对b进行操作,但是不改变a,那么要用如下的代码(b = a.copy()):

import numpy as np
a = np.array([1, 2, 3])
print("id(a):", id(a))
b = a.copy()
print("id(b):", id(b))
print(id(a) == id(b))

输出结果:

id(a): 1549742256336
id(b): 1549742141968
False

3 文件操作

3.1 pickle

pickle是大家常用的一个文件,最大的优点在于什么东西存储进去,就可以读取什么东西出来。

pickle是以二进制方式进行存储与读取的,比如下面的栗子:

import pickle
with open(filepath_1, 'rb') as f:
    file = pickle.load(f)
with open(filepath_2, 'wb') as f:
    pickle.dump(file, f)

但是可能有许多初学者会在写入pickle的时候选择追加方式写入(比如爬虫中断等情况),但是这种方式是不可行的。因为pickle是二进制操作,如果以追加方式写入,那么你在读取的时候只能读取到第一次写入的内容,之后的内容是无法读取的。

那么在这种有可能因为中断等原因需要一直添加内容到pkl里面,我比较推荐分成不同份的文件进行保存,既可以保证文件能够正常的读取,也不用担心因为程序中断而导致需要重新执行的问题。

以上为个人经验,希望能给大家一个参考,也希望大家多多支持编程宝库

最近研究验证码识别,需要生成大量验证码,最方便的是使用captcha库来生成验证码,网上代码仅仅使用默认设置,但是它还有很多参数可以设定,于是我又添加了一些参数,方便使用。  ...