算法乐园主页笔记刷题

python笔记

pycharm常用快捷键

ctrl+alt+s	打开软件设置
ctrl+d	复制当前行代码
shift+alt+上/下	将当前行代码上移或下移
ctrl+shift+f10	运行当前代码文件
shift+f6	重命名文件
ctrl+a	全选
ctrl+f	搜索
ctrl+alt+L	reformat code
ctrl+alt+shift+L	reformat file
ctrl+/	注释选中行

1print语句

print()默认结尾换行,如果不需要换行可以添加end=''


1
print("hello", end='')
2
print("world")


xxxxxxxxxx
1
1
helloworld


xxxxxxxxxx
2
1
print("hello\tworld")
2
print("hello\nworld")


xxxxxxxxxx
3
1
hello   world
2
hello
3
world

2.1字面量python六种数据类型


xxxxxxxxxx
3
1
print(999)
2
print(114.514)
3
print("hello world")

2.2注释


xxxxxxxxxx
7
1
"""
2
这个是多行注释
3
"""
4
# 这个是单行注释（#号和注释内容一般建议一个空格隔开）
5
'''
6
这个也是多行注释
7
'''

2.3变量


xxxxxxxxxx
3
1
money = 10
2
money = money - 5
3
print("余额为", money, "元")


xxxxxxxxxx
1
1
余额为 5 元

2.4数据类型


xxxxxxxxxx
4
1
string_type = type("hello world")
2
int_type = type(666)
3
float_type = type(114.514)
4
print(string_type, int_type, float_type)


xxxxxxxxxx
1
1
<class 'str'> <class 'int'> <class 'float'>

2.5数据类型转换

语句(函数)	说明
int(x)	将x转换为一个整数
float(x)	将x转换为一个浮点数
str(x)	将对象x转换为字符串

万物皆可转字符串,只有字符串是数字时才能将字符串转数字


xxxxxxxxxx
10
1
float_str = str(114.514)
2
print(type(float_str), float_str)
3
num = int("11")
4
print(type(num), num)
5
num2 = float("1919.810")
6
print(type(num2), num2)
7
fnum = float(11)
8
print(type(fnum), fnum)
9
inum = int(114.514)  # 不会四舍五入，直接取整
10
print(type(inum), inum)


xxxxxxxxxx
5
1
<class 'str'> 114.514
2
<class 'int'> 11
3
<class 'float'> 1919.81
4
<class 'float'> 11.0
5
<class 'int'> 114

2.6标识符

标识符命名只允许出现:

英文字母
中文(不推荐)
数字(不可以开头)
下划线_

2.7运算符


xxxxxxxxxx
4
1
print(1/3)
2
print(-17/4)
3
print(-17//4)
4
print(10//4)


xxxxxxxxxx
4
1
0.3333333333333333
2
-4.25
3
-5
4
2

$-\infin$

Python 中一般以新行作为语句的结束标识，可以使用 \ 将一行语句分为多行显示。如下所示：


xxxxxxxxxx
6
1
a = 128
2
b = 1024
3
c = 512
4
d = a + \
5
    b - \
6
    c

如果包含在 []、{}、() 括号中，则不需要使用 \。如下所示：


xxxxxxxxxx
5
1
arr = {
2
    a,
3
    b,
4
    c
5
}

2.8字符串的三种定义方式


xxxxxxxxxx
10
1
# 单引号定义法
2
name1='hello'
3
# 双引号定义法
4
name2="hello"
5
#三引号定义法
6
name3="""
7
hello
8
world
9
"""
10
print(name3)


xxxxxxxxxx
3
1

2
hello
3
world

单引号定义法,可以内含双引号

双引号定义法,可以内含单引号

可以用转义字符\解除引号的效用

2.9字符串拼接


xxxxxxxxxx
4
1
s1 = "abcd"
2
s2 = "defg"
3
s3 = s1 + s2
4
print(s3)


xxxxxxxxxx
1
1
abcddefg

2.10字符串格式化


xxxxxxxxxx
6
1
num = 114514
2
s = "abcde"
3
message1 = "%s你好世界" % s
4
print(message1)
5
message1 = "%s你好世界%s" % (s, num)
6
print(message1)


xxxxxxxxxx
2
1
abcde你好世界
2
abcde你好世界114514


xxxxxxxxxx
5
1
s = "绩点"
2
gpa = 0.1
3
num = 666
4
message = "%s高达%f,老铁%d" % (s, gpa, num)
5
print(message)


xxxxxxxxxx
1
1
绩点高达0.100000,老铁666

字符转ASCII和ASCII转字符串


xxxxxxxxxx
2
1
print(ord("a"))
2
print(chr(97))


xxxxxxxxxx
2
1
97
2
a

字符串的大小写转化


xxxxxxxxxx
9
1
# title将首字母变成大写,其余小写
2
str = "wHat a beaUTIFul GIrl!!"
3
print(str.title())
4
# upper将所有字母变成大写
5
str = "Cpp Is The Best Programing Language"
6
print(str.upper())
7
# lower将所有字母变成小写
8
str = "I HATE PYTHOn"
9
print(str.lower())


xxxxxxxxxx
3
1
What A Beautiful Girl!!
2
CPP IS THE BEST PROGRAMING LANGUAGE
3
i hate python

2.11数字精度控制

2.12字符串格式化的一种快速写法

格式:f”内容{变量}”(不关心精度控制)


xxxxxxxxxx
5
1
s = "绩点"
2
gpa = 0.1
3
num = 666
4
message = f"{s}高达{gpa},大佬{num}"
5
print(message)


xxxxxxxxxx
1
1
绩点高达0.1,大佬666

2.15input语句


xxxxxxxxxx
2
1
name = input("你是谁？")
2
print("ohhhhhhh!您就是那位著名的%s" % name)


xxxxxxxxxx
2
1
你是谁？练习时长两年半的个人练习生
2
ohhhhhhh!您就是那位著名的练习时长两年半的个人练习生

input默认接受类型为string字符串

3条件语句

bool类型表示逻辑,True记作1,False记作0

python中的与或非: and or not

参考链接


xxxxxxxxxx
3
1
num1 = 11
2
num2 = 20
3
print(f"11>20结果是{11 > 20},类型为{type(11 > 20)}")


xxxxxxxxxx
1
1
11>20结果是False,类型为<class 'bool'>


xxxxxxxxxx
7
1
num = int(input())
2
if num < 10:
3
    print(f"{num}<10")
4
elif num <= 100:
5
    print(f"{num}<=100")
6
else:
7
    print(num)


xxxxxxxxxx
2
1
20
2
20<=100


xxxxxxxxxx
6
1
num = int(input())
2
if num <= 100:
3
    pass  # pass 是空语句，它不做任何事情，一般用做占位语句，作用是保持程序结构的完整性。
4
else:
5
    print(num)
6

4.1循环语句while


xxxxxxxxxx
6
1
x = 1
2
add = 0
3
while x <= 100:
4
    add += x
5
    x += 1
6
print(add)


xxxxxxxxxx
1
1
5050

4.2循环语句for

for 临时变量 in 序列类型:

字符串和range语句生成的都是序列类型


xxxxxxxxxx
7
1
s = "abcdef"
2
for ch in s:
3
    if ch == "a":
4
        continue
5
    if (ch == "e"):
6
        break
7
    print(ch)


xxxxxxxxxx
3
1
b
2
c
3
d

range(num)

获得一个从0开始,到num结束的数字序列

range(5)取得的数据是[0,1,2,3,4]

range(num1,num2)

获得从num1开始,到num2结束的数字序列(不含num2本身)

range(5,10)取得的数据是[5,6,7,8,9]

range(num1,num2,step)

获得从num1开始,到num2结束的数字序列(不含num2本身)

数字间的步长,以step为准(默认为1)

例如,range(5,10,2)取得的数据为[5,7,9]


xxxxxxxxxx
2
1
for x in range(5, 11, 2):
2
    print(x, end=' ')


xxxxxxxxxx
1
1
5 7 9


xxxxxxxxxx
3
1
for i in range(10, 0, -1):
2
    print(i, end=' ')
3
print()


xxxxxxxxxx
1
1
10 9 8 7 6 5 4 3 2 1

reduce代替for循环

reduce函数在python2中是个内置函数，在python3中被移到functools模块中。


xxxxxxxxxx
6
1
from functools import reduce
2
def add(x,y):
3
    return x+y
4
ar=[1,2,3,4,5]
5
accumulate=reduce(add,ar)
6
print(accumulate)


xxxxxxxxxx
1
1
15

解释: 1+2+3+4+5=15

作用:它用于对一个可迭代对象进行累积操作，将一个二元函数应用于序列的前两个元素，然后将结果与下一个元素继续应用该函数，直到序列中的所有元素都被处理完毕。

5函数


xxxxxxxxxx
9
1
def strlen(s):
2
    a = 0
3
    for i in s:
4
        a += 1
5
    return a
6

7

8
s1 = "hello world"
9
print(strlen(s1))


xxxxxxxxxx
1
1
11

对于没有返回值的函数,返回值为None类型(也可以return None或return)


xxxxxxxxxx
5
1
def nofunc():
2
    print("nofunc")
3

4

5
print(nofunc(), type(nofunc()))


xxxxxxxxxx
3
1
nofunc
2
nofunc
3
None <class 'NoneType'>

在if判断中None等同于False

None也可用于声明无初始内容的变量


xxxxxxxxxx
4
1
a = None
2
print(a, type(a))
3
a = 1
4
print(a, type(a))


xxxxxxxxxx
2
1
None <class 'NoneType'>
2
1 <class 'int'>

函数说明文档:


xxxxxxxxxx
12
1
def add(x, y):
2
    """
3
    add函数可以接受2个参数，进行两数相加
4
    :param x:第一个数字
5
    :param y:第二个数字
6
    :return:两数之和
7
    """
8
    result = x + y
9
    return result
10

11

12
print("1+2=", add(1, 2))

注:函数内定义的变量在函数外是完全不可访问的

函数外定义的全局变量函数内可以访问


xxxxxxxxxx
15
1
num = 200
2

3

4
def test_a():
5
    print(f"test_a{num}")
6

7

8
def test_b():
9
    num = 500  # 局部变量
10
    print(f"test_b{num}")
11

12

13
test_a()
14
test_b()
15
print(num)


xxxxxxxxxx
3
1
test_a200
2
test_b500
3
200


xxxxxxxxxx
16
1
num = 200
2

3

4
def test_a():
5
    print(f"test_a{num}")
6

7

8
def test_b():
9
    global num
10
    num = 500  # 全局变量
11
    print(f"test_b{num}")
12

13

14
test_a()
15
test_b()
16
print(num)


xxxxxxxxxx
3
1
test_a200
2
test_b500
3
500

6.1 list数据容器-列表

定义列表


xxxxxxxxxx
11
1
name_list = ["abc", "def", "ghi"]
2
print(name_list)
3
print(type(name_list))
4
# 列表可以存储多种不同元素
5
my_list = ["abc", 666, True]
6
print(my_list)
7
print(type(my_list))
8
# 列表支持嵌套
9
two_dimension = [[1, 2, 3], [4, 5, 6]]
10
print(two_dimension)
11
print((type(two_dimension)))


xxxxxxxxxx
6
1
['abc', 'def', 'ghi']
2
<class 'list'>
3
['abc', 666, True]
4
<class 'list'>
5
[[1, 2, 3], [4, 5, 6]]
6
<class 'list'>

下标索引

.index方法(由元素找到第一次出现的下标)

列表.index(元素)

Return first index of value. Raises ValueError if the value is not present.(报错)


xxxxxxxxxx
3
1
mylist = ["abc", "def", "ghi"]
2
idx=mylist.index("abc")
3
print(f'"abc"的下标位置为{idx}')


xxxxxxxxxx
1
1
"abc"的下标位置为0

修改元素[]


xxxxxxxxxx
3
1
mylist = ["abc", "def", "ghi"]
2
mylist[1]="bcd"
3
print(mylist)


xxxxxxxxxx
1
1
['abc', 'bcd', 'ghi']

插入元素.insert()


xxxxxxxxxx
3
1
mylist = ["abc", "def", "ghi", "jkl", "mno"]
2
mylist.insert(2, "666")
3
print(f"在下标2处插入元素后，mylist变成{mylist}")


xxxxxxxxxx
1
1
在下标2处插入元素后，mylist变成['abc', 'def', '666', 'ghi', 'jkl', 'mno']

追加元素.append()


xxxxxxxxxx
3
1
mylist = ["abc", "def", "ghi", "jkl", "mno"]
2
mylist.append("pqr")
3
print(f"在尾插元素后，mylist变成{mylist}")


xxxxxxxxxx
1
1
在尾插元素后，mylist变成['abc', 'def', 'ghi', 'jkl', 'mno', 'pqr']

追加其他容器.extend()


xxxxxxxxxx
3
1
mylist = ["abc", "def", "ghi", "jkl", "mno"]
2
mylist.extend(["pqr", "stu", "vwx"])
3
print(f"在追加列表后，mylist变成{mylist}")


xxxxxxxxxx
1
1
在追加列表后，mylist变成['abc', 'def', 'ghi', 'jkl', 'mno', 'pqr', 'stu', 'vwx']

删除指定下标处元素

del 列表名[下标]或列表名.pop(下标)


xxxxxxxxxx
5
1
mylist = ["abc", "def", "ghi", "jkl", "mno", "pqr", "stu", "vwx"]
2
del mylist[2]
3
print(f"删除元素后，mylist变成{mylist}")
4
element = mylist.pop(2)
5
print(f"取出{element}后，列表变成{mylist}")


xxxxxxxxxx
2
1
删除元素后，mylist变成['abc', 'def', 'jkl', 'mno', 'pqr', 'stu', 'vwx']
2
取出jkl后，列表变成['abc', 'def', 'mno', 'pqr', 'stu', 'vwx']

找到并删除元素remove


xxxxxxxxxx
3
1
mylist = [1, 2, 3, 2, 3]
2
mylist.remove(2)
3
print(mylist)


xxxxxxxxxx
1
1
[1, 3, 2, 3]

只删除从左到右的第一个

清空列表.clear()


xxxxxxxxxx
3
1
mylist = [1, 2, 3, 2, 3]
2
mylist.clear()
3
print(mylist)


xxxxxxxxxx
1
1
[]

统计元素数量.count()


xxxxxxxxxx
2
1
my_list = [1, 1, 1, 2, 3]
2
print(my_list.count(1))


xxxxxxxxxx
1
1
3

列表长度


xxxxxxxxxx
2
1
my_list = [1, 1, 1, 2, 3]
2
print(len(my_list))


xxxxxxxxxx
1
1
5

$2^{63}-1=9223372036854775807$

遍历容器


xxxxxxxxxx
3
1
my_list = [1, 2, 3, 4, 5, 6, 7, 8]
2
for ele in my_list:
3
    print(ele, end=" ")


xxxxxxxxxx
1
1
1 2 3 4 5 6 7 8


xxxxxxxxxx
3
1
list1 = ["这", "是", "一个", "测试"]
2
for index, item in enumerate(list1):
3
    print(index, item)


xxxxxxxxxx
4
1
0 这
2
1 是
3
2 一个
4
3 测试

可以设置下标从哪个数开始


xxxxxxxxxx
3
1
list1 = ["这", "是", "一个", "测试"]
2
for index, item in enumerate(list1, 1):
3
    print(index, item)


xxxxxxxxxx
4
1
1 这
2
2 是
3
3 一个
4
4 测试

拷贝容器.copy

l1=l2是深拷贝,修改l2,l1会跟着改变

l1-l2.copy()是浅拷贝,修改l2,l1不会跟着改变

6.7 tuple数据容器-元组

和list的区别是不可修改

定义:

(元素,元素,元素,......)

空元组:变量名称=()

变量名称=tuple()


xxxxxxxxxx
3
1
# 定义单个元素的元组
2
t = ("hello")
3
print(f"类型是{type(t)},内容是{t}")


xxxxxxxxxx
1
1
类型是<class 'str'>,内容是hello


xxxxxxxxxx
4
1
# 定义单个元素的元组需要加一个逗号,以便和数学公式区分
2
t = ("hello",)
3
print(f"类型是{type(t)},内容是{t}")
4
print(len(t))


xxxxxxxxxx
2
1
类型是<class 'tuple'>,内容是('hello',)
2
1

元组不可修改,但元组中的列表可以修改


xxxxxxxxxx
3
1
t = (1, 2, 3, 4, [1, 2, 3, 4], 5)
2
t[4][1] = -1
3
print(t)


xxxxxxxxxx
1
1
(1, 2, 3, 4, [1, -1, 3, 4], 5)

6.8string数据容器-字符串

字符串可以通过下标进行访问

从前往后,下标从0开始递增
从后往前,下标从-1开始递减

同元组一样,字符串是一个无法修改的数据容器

index方法


xxxxxxxxxx
2
1
s = "you are a handsome boy"
2
print(s.index("hand"))  # 返回hand第一次出现时h的下标


xxxxxxxxxx
1
1
10

.replace方法(替换)

语法:字符串.replace(字符串1,字符串2)

功能:将字符串内的全部: 字符串1,替换为字符串2

注意:不是修改字符串本身,而是得到了一个新字符串


xxxxxxxxxx
4
1
s = "cats and dogs are good cats and dogs and cats and dogs do things cats and dogs like do"
2
s1 = s.replace("cat", "tiger")
3
print(f"s={s}")
4
print(f"s1={s1}")


xxxxxxxxxx
2
1
s=cats and dogs are good cats and dogs and cats and dogs do things cats and dogs like do
2
s1=tigers and dogs are good tigers and dogs and tigers and dogs do things tigers and dogs like do

.split方法(分割)

语法:字符串.split(分隔符字符串)

功能:按照指定的分隔符字符串,将字符串划分成多个字符串,并存入列表对象中

注意:字符串本身不变,而是得到了一个列表对象


xxxxxxxxxx
4
1
s = "cats and dogs are good cats and dogs and cats and dogs do things cats and dogs like do"
2
l = s.split(" ")
3
print(f"s={s}")
4
print(f"s1={l},type(l)={type(l)}")


xxxxxxxxxx
2
1
s=cats and dogs are good cats and dogs and cats and dogs do things cats and dogs like do
2
s1=['cats', 'and', 'dogs', 'are', 'good', 'cats', 'and', 'dogs', 'and', 'cats', 'and', 'dogs', 'do', 'things', 'cats', 'and', 'dogs', 'like', 'do'],type(l)=<class 'list'>

.strip方法(规整字符串)


xxxxxxxxxx
2
1
s = "12abcde1"
2
print(s.strip("12"))


xxxxxxxxxx
1
1
abcde

.count方法统计字符串中某字符串出现的次数


xxxxxxxxxx
2
1
s = "114514514114514514114114"
2
print(s.count("114"))


xxxxxxxxxx
1
1
4

len统计字符串长度


xxxxxxxxxx
2
1
s = "114514514114514514114114"
2
print(len(s))


xxxxxxxxxx
1
1
24

汇总

Python 中常用处理字符串的相关函数

原文链接

string.capitalize() 把字符串的第一个字符大写 string.count(str, beg=0, end=len(string))返回 str 在 string 里面出现的次数，如果 beg 或者 end 指定则返回指定范围内 str 出现的次数 string.endswith(obj, beg=0, end=len(string)) 检查字符串是否以 obj 结束，如果beg 或者 end 指定则检查指定的范围内是否以 obj 结束，如果是，返回 True,否则返回 False. string.find(str, beg=0, end=len(string))检测 str 是否包含在 string 中，如果 beg 和 end 指定范围，则检查是否包含在指定范围内，如果是返回开始的索引值，否则返回-1 string.index(str, beg=0, end=len(string))跟find()方法一样，只不过如果str不在 string中会报一个异常. string.isalnum()如果 string 至少有一个字符并且所有字符都是字母或数字则返回 True,否则返回 False string.isalpha()如果 string 至少有一个字符并且所有字符都是字母则返回 True,否则返回 False string.isdecimal()如果 string 只包含十进制数字则返回 True 否则返回 False. string.isdigit()如果 string 只包含数字则返回 True 否则返回 False. string.islower()如果 string 中包含至少一个区分大小写的字符，并且所有这些(区分大小写的)字符都是小写，则返回 True，否则返回 False string.isnumeric()如果 string 中只包含数字字符，则返回 True，否则返回 False string.isspace() 如果 string 中只包含空格，则返回 True，否则返回 False. string.istitle()如果 string 是标题化的(见 title())则返回 True，否则返回 False string.isupper()如果 string 中包含至少一个区分大小写的字符，并且所有这些(区分大小写的)字符都是大写，则返回 True，否则返回 False string.join(seq)以 string 作为分隔符，将 seq 中所有的元素(的字符串表示)合并为一个新的字符串 string.lower() 转换 string 中所有大写字符为小写. string.lstrip()截掉 string 左边的空格 max(str)返回字符串 str 中最大的字母。 min(str) 返回字符串 str 中最小的字母。 string.replace(str1, str2, num=string.count(str1))把 string 中的 str1 替换成 str2,如果 num 指定，则替换不超过 num 次. string.split(str="", num=string.count(str))以 str 为分隔符切片 string，如果 num 有指定值，则仅分隔 num+ 个子字符串 string.startswith(obj, beg=0,end=len(string)) 检查字符串是否是以 obj 开头，是则返回 True，否则返回 False。如果beg 和 end 指定值，则在指定范围内检查. string.strip([obj])在 string 上执行 lstrip()和 rstrip() string.swapcase()翻转 string 中的大小写 string.title()返回"标题化"的 string,就是说所有单词都是以大写开始，其余字母均为小写(见 istitle()) string.translate(str, del="")根据 str 给出的表(包含 256 个字符)转换 string 的字符,要过滤掉的字符放到 del 参数中 string.upper() 转换 string 中的小写字母为大写

6.10(取子序列)序列的切片

序列:内容连续,有序,可使用下标索引的一类数据容器

列表、元组、字符串均可以视为序列

注意:此操作不会影响序列本身,而是会得到一个新的序列


xxxxxxxxxx
5
1
mylist = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
2
result1 = mylist[1:4]
3
result2 = mylist[2:9:2]
4
print(result1)
5
print(result2)


xxxxxxxxxx
2
1
[1, 2, 3]
2
[2, 4, 6, 8]


xxxxxxxxxx
5
1
mytuple = (0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10)
2
r1 = mytuple[:]  # 都不写表示从头到尾
3
r2 = mytuple[::-1]
4
print(f"r1={r1}")
5
print(f"r2={r2}")


xxxxxxxxxx
2
1
r1=(0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10)
2
r2=(10, 9, 8, 7, 6, 5, 4, 3, 2, 1, 0)

6.12set集合


xxxxxxxxxx
5
1
a = {1, 2, 3, 4, 5, 6, 1, 1, 1, 1, 1, 1, 11}
2
b = {}  # 注意:这里的b是字典而不是集合 
3
c = set()
4
print(a, b, c)
5
print(type(b))


xxxxxxxxxx
2
1
{1, 2, 3, 4, 5, 6, 11} {} set()
2
<class 'dict'>

因为集合是无序的,所以不支持下标索引访问

但是集合和列表一样,是允许修改的

.add添加元素


xxxxxxxxxx
4
1
a = {11, 2, 3, 4, 5, 6, 7}
2
a.add(1)
3
a.add(5)
4
print(a)


xxxxxxxxxx
1
1
{1, 2, 3, 4, 5, 6, 7, 11}

.remove移除元素


xxxxxxxxxx
3
1
a = {11, 2, 3, 4, 5, 6, 7}
2
a.remove(3)
3
print(a)


xxxxxxxxxx
1
1
{2, 4, 5, 6, 7, 11}

.pop取出元素


xxxxxxxxxx
6
1
a = {11, 2, 3, 4, 5, 6, 7}
2
while len(a) > 0:
3
    print(a.pop())
4
a = {"ab", "idq", "sq", "kq", "yc", "mw"}
5
while len(a) > 0:
6
    print(a.pop())


xxxxxxxxxx
13
1
2
2
3
3
4
4
5
5
6
6
7
7
11
8
sq
9
yc
10
kq
11
mw
12
idq
13
ab

取出的过程对于字符串是随机的,即每次运行结果都不同

.difference集合差集

.difference_update集合的差集并更新左集合

.union集合合并

集合长度


xxxxxxxxxx
2
1
a = {1, 2, 3, 4, 5, 6, 7, 8, 9, 1, 2, 3, 4, 5, 6, 7, 8, 9}
2
print(len(a))


xxxxxxxxxx
1
1
9

集合遍历

集合不支持下标索引,所以不能用while循环遍历集合


xxxxxxxxxx
3
1
set1 = {1, 2, 3, 4, 5}
2
for ele in set1:
3
    print(ele, end=" ")


xxxxxxxxxx
1
1
1 2 3 4 5

总结

6.14 dict字典


xxxxxxxxxx
6
1
d1 = {"a": 97, "b": 98, "c": 99, "d": 100}
2
print(f"d1={d1} with type{type(d1)}")
3
d2 = {}
4
print(f"d2={d2} with type{type(d2)}")
5
d3 = dict()
6
print(f"d3={d3} with type{type(d3)}")


xxxxxxxxxx
3
1
d1={'a': 97, 'b': 98, 'c': 99, 'd': 100} with type<class 'dict'>
2
d2={} with type<class 'dict'>
3
d3={} with type<class 'dict'>

字典不允许键值重复

key和value可以是任意数据类型,但key不能为字典(必须可哈希)

[]访问元素

不可以使用下标索引,但可以根据key找到value


xxxxxxxxxx
2
1
d1 = {"a": 97, "b": 98, "c": 99, "d": 100}
2
print(d1["b"])


xxxxxxxxxx
1
1
98

[]新增元素,更新元素

dict不支持访问不存在的元素(以下是错误代码)


xxxxxxxxxx
2
1
d1 = {"a": 97, "b": 98, "c": 99, "d": 100, "e": 101, "f": 102}
2
print(f'd1["g"]={d1["g"]}')  # 代码编译错误

.pop删除元素


xxxxxxxxxx
3
1
d1 = {"a": 97, "b": 98, "c": 99, "d": 100, "e": 101, "f": 102}
2
d1.pop("d")
3
print(d1)


xxxxxxxxxx
1
1
{'a': 97, 'b': 98, 'c': 99, 'e': 101, 'f': 102}

.clear清空元素


xxxxxxxxxx
3
1
d1 = {"a": 97, "b": 98, "c": 99, "d": 100, "e": 101, "f": 102}
2
d1.clear()
3
print(d1)


xxxxxxxxxx
1
1
{}

.keys获取全部的key


xxxxxxxxxx
4
1
d1 = {"a": 97, "b": 98, "c": 99, "d": 100, "e": 101, "f": 102}
2
k = d1.keys()
3
print(k)
4
print(type(k))


xxxxxxxxxx
2
1
dict_keys(['a', 'b', 'c', 'd', 'e', 'f'])
2
<class 'dict_keys'>

遍历容器

方式1:通过key


xxxxxxxxxx
4
1
d1 = {"a": 97, "b": 98, "c": 99, "d": 100, "e": 101, "f": 102}
2
k = d1.keys()
3
for k1 in k:
4
    print(f"key={k1},value={d1[k1]}", end=" ")


xxxxxxxxxx
1
1
key=a,value=97 key=b,value=98 key=c,value=99 key=d,value=100 key=e,value=101 key=f,value=102

方式2:直接for循环


xxxxxxxxxx
3
1
d1 = {"a": 97, "b": 98, "c": 99, "d": 100, "e": 101, "f": 102}
2
for k1 in d1:
3
    print(f"key={k1},value={d1[k1]}", end=" ")


xxxxxxxxxx
1
1
key=a,value=97 key=b,value=98 key=c,value=99 key=d,value=100 key=e,value=101 key=f,value=102

len统计元素数量


xxxxxxxxxx
2
1
d1 = {"a": 97, "b": 98, "c": 99, "d": 100, "e": 101, "f": 102}
2
print(len(d1))


xxxxxxxxxx
1
1
6

判断元素是否在容器内


xxxxxxxxxx
9
1
d1 = {"a": 97, "b": 98, "c": 99, "d": 100, "e": 101, "f": 102}
2
if "c" in d1:
3
    print("in")
4
if "p" not in d1:
5
    print("not in")
6
if 97 in d1.values():
7
    print("in")
8
else:
9
    print("not in")


xxxxxxxxxx
3
1
in
2
not in
3
in

总结

五类容器的总结

万物皆可转列表(list)list{container}


xxxxxxxxxx
8
1
a1 = (1, 2, 3, 4, 5)
2
b1 = "abcdefg"
3
c1 = {1, 2, 3, 4, 5}
4
d1 = {"a": 97, "b": 98, "c": 99, "d": 100, "e": 101, "f": 102}
5
print(list(a1))
6
print(list(b1))
7
print(list(c1))
8
print(list(d1))


xxxxxxxxxx
4
1
[1, 2, 3, 4, 5]
2
['a', 'b', 'c', 'd', 'e', 'f', 'g']
3
[1, 2, 3, 4, 5]
4
['a', 'b', 'c', 'd', 'e', 'f']  %字典转列表只保留key

转tuple


xxxxxxxxxx
8
1
a1 = (1, 2, 3, 4, 5)
2
b1 = "abcdefg"
3
c1 = {1, 2, 3, 4, 5}
4
d1 = {"a": 97, "b": 98, "c": 99, "d": 100, "e": 101, "f": 102}
5
print(tuple(a1))
6
print(tuple(b1))
7
print(tuple(c1))
8
print(tuple(d1))


xxxxxxxxxx
4
1
(1, 2, 3, 4, 5)
2
('a', 'b', 'c', 'd', 'e', 'f', 'g')
3
(1, 2, 3, 4, 5)
4
('a', 'b', 'c', 'd', 'e', 'f')

转string


xxxxxxxxxx
8
1
a1 = (1, 2, 3, 4, 5)
2
b1 = "abcdefg"
3
c1 = {1, 2, 3, 4, 5}
4
d1 = {"a": 97, "b": 98, "c": 99, "d": 100, "e": 101, "f": 102}
5
print(str(a1))
6
print(str(b1))
7
print(str(c1))
8
print(str(d1))


xxxxxxxxxx
4
1
(1, 2, 3, 4, 5)
2
abcdefg
3
{1, 2, 3, 4, 5}
4
{'a': 97, 'b': 98, 'c': 99, 'd': 100, 'e': 101, 'f': 102}

转set


xxxxxxxxxx
8
1
a1 = (1, 2, 3, 4, 5)
2
b1 = "abcdefg"
3
c1 = {1, 2, 3, 4, 5}
4
d1 = {"a": 97, "b": 98, "c": 99, "d": 100, "e": 101, "f": 102}
5
print(set(a1))
6
print(set(b1))
7
print(set(c1))
8
print(set(d1))


xxxxxxxxxx
4
1
{1, 2, 3, 4, 5}
2
{'f', 'g', 'b', 'c', 'd', 'e', 'a'}  %被打乱了
3
{1, 2, 3, 4, 5}
4
{'f', 'a', 'b', 'c', 'd', 'e'}  %被打乱了

sorted通用排序功能

sorted(容器,[reverse=True]) 返回一个list


xxxxxxxxxx
8
1
a1 = (5, 6, 2, 4, 0)
2
b1 = "bhwjdQNA1wq,"
3
c1 = {3,5,1,6,8}
4
d1 = {"d": 97, "c": 98, "q": 99, "r": 100, "l": 101, "x": 102}
5
print(sorted(a1))
6
print(sorted(b1))
7
print(sorted(c1))
8
print(sorted(d1))


xxxxxxxxxx
4
1
[0, 2, 4, 5, 6]
2
[',', '1', 'A', 'N', 'Q', 'b', 'd', 'h', 'j', 'q', 'w', 'w']
3
[1, 3, 5, 6, 8]
4
['c', 'd', 'l', 'q', 'r', 'x']


xxxxxxxxxx
8
1
a1 = (5, 6, 2, 4, 0)
2
b1 = "bhwjdQNA1wq,"
3
c1 = {3, 5, 1, 6, 8}
4
d1 = {"d": 97, "c": 98, "q": 99, "r": 100, "l": 101, "x": 102}
5
print(sorted(a1, reverse=True))
6
print(sorted(b1, reverse=True))
7
print(sorted(c1, reverse=True))
8
print(sorted(d1, reverse=True))


xxxxxxxxxx
4
1
[6, 5, 4, 2, 0]
2
['w', 'w', 'q', 'j', 'h', 'd', 'b', 'Q', 'N', 'A', '1', ',']
3
[8, 6, 5, 3, 1]
4
['x', 'r', 'q', 'l', 'd', 'c']

7.1函数多返回值


xxxxxxxxxx
6
1
def test01():
2
    return 11, 22
3

4

5
x, y = test01()
6
print(f"x={x},y={y}")


xxxxxxxxxx
1
1
x=11,y=22


xxxxxxxxxx
6
1
def test01():
2
    return 11, 4.5, "14"
3

4

5
x, y, z = test01()
6
print(f"x={x},y={y},z={z}")


xxxxxxxxxx
1
1
x=11,y=4.5,z=14

7.2 函数的多种参数使用形式

位置参数


xxxxxxxxxx
5
1
def test01(name, age, gender):
2
    print(name, age, gender)
3

4

5
test01('Tom', 10, '沃尔玛塑料袋')


xxxxxxxxxx
1
1
Tom 10 沃尔玛塑料袋

关键字参数


xxxxxxxxxx
5
1
def test01(name, age, gender):
2
    print(name, age, gender)
3

4

5
test01(name='Tom', age=10, gender='武装直升机')


xxxxxxxxxx
1
1
Tom 10 武装直升机


xxxxxxxxxx
5
1
def test01(name, age, gender):  # 可以打乱顺序
2
    print(name, age, gender)
3

4

5
test01(name='Tom', gender='武装直升机', age=10)


xxxxxxxxxx
1
1
Tom 10 武装直升机


xxxxxxxxxx
6
1
def test01(name, age, gender):
2
    print(name, age, gender)
3

4

5
test01('Tom', gender='武装直升机', age=10)  # 关键字参数可以和位置参数混用
6
# 要求位置参数必须在关键词参数前面,关键词参数之间不存在先后顺序


xxxxxxxxxx
1
1
Tom 10 武装直升机

缺省参数

默认参数必须放在最后


xxxxxxxxxx
5
1
def test01(name, age, gender="草履虫"):
2
    print(name, age, gender)
3

4

5
test01('Tom', 10)


xxxxxxxxxx
1
1
Tom 10 草履虫

不定长参数

位置传递


xxxxxxxxxx
7
1
def test01(*args):  # 所有参数都会被args变量收集,并形成一个元组tuple
2
    print(args)
3

4

5
test01('Jerry')
6
test01('Tom', 10)
7
test01('Trump', 77, 'Walmart bag')


xxxxxxxxxx
3
1
('Jerry',)
2
('Tom', 10)
3
('Trump', 77, 'Walmart bag')

关键字传递


xxxxxxxxxx
5
1
def user(**kwargs):  # 所有参数会被kwargs收集,并形成一个字典dict
2
    print(kwargs)
3

4

5
user(name='TOM', age=18, id=110)


xxxxxxxxxx
1
1
{'name': 'TOM', 'age': 18, 'id': 110}

args -> arguments

kwargs -> key word arguments

7.3函数作为参数传递


xxxxxxxxxx
11
1
def test_func(compute):
2
    result = compute(1, 2)
3
    print(result)
4
    print(type(compute))
5

6

7
def add(x, y):
8
    return x + y
9

10

11
test_func(add)


xxxxxxxxxx
2
1
3
2
<class 'function'>

7.4 lambda匿名函数

lambda 传入参数: 函数体(一行代码)


xxxxxxxxxx
7
1
def test_func(compute):
2
    result = compute(1, 2)
3
    print(result)
4
    print(type(compute))
5

6

7
test_func(lambda x, y: x + y)  # 可以不写return,默认是return


xxxxxxxxxx
2
1
3
2
<class 'function'>

9.4模块的概念和导入


xxxxxxxxxx
5
1
import time  # 导入python内置的time模块（time.py这个代码文件）
2

3
print(1)
4
time.sleep(1)
5
print(2)


xxxxxxxxxx
2
1
1
2
2

导入time模块后,就可以通过time.访问其中的内容(类,函数,变量)


xxxxxxxxxx
6
1
from time import sleep  # 只导入time.py中sleep这一个函数
2

3
print(1)
4
# time.sleep(1)  # 报错
5
sleep(1)
6
print(2)


xxxxxxxxxx
2
1
1
2
2


xxxxxxxxxx
6
1
from time import *  # *表示导入time.py中所有函数
2

3
print(1)
4
# time.sleep(1)  # 报错
5
sleep(1)
6
print(2)


xxxxxxxxxx
2
1
1
2
2


xxxxxxxxxx
1
1
from functools import cache  # cache装饰器

给模块起别名


xxxxxxxxxx
7
1
import time as tt  # 导入time.py中所有函数并起别名
2

3
print(1)
4
# time.sleep(1)  # 报错
5
# sleep(1)  # 报错
6
tt.sleep(1)
7
print(2)


xxxxxxxxxx
2
1
1
2
2

给函数起别名


xxxxxxxxxx
6
1
from time import sleep as sl  # 导入sleep函数命名为sl
2

3
print(1)
4
# sleep(2)  #报错
5
sl(2)
6
print(2)


xxxxxxxxxx
2
1
1
2
2

9.5自定义模块


xxxxxxxxxx
6
1
def print_hi(name):
2
    print(f'Hi, {name}')
3

4

5
if __name__ == '__main__':
6
    print_hi('PyCharm')

运行模块时会输出Hi, PyCharm

在其他文件导入模块时,不会输出Hi, PyCharm

9.6 自定义python包

什么是Python包

从物理上看，包就是一个文件夹，在该文件夹下包含了一个__init__.py 文件，该文件夹可用于包含多个模块文件

从逻辑上看，包的本质依然是模块

导入包

方式一：

导入: import 包名.模块名

使用: 包名.模块名.目标函数

方式二:

导入: from 包名 import 模块名

使用: 模块名.目标函数

方式三:

导入: from 包名.模块名 import 目标函数

使用: 目标函数

方式四:

9.7安装第三方包

什么是第三方包

我们知道，包可以包含一堆的Python模块，而每个模块又内含许多的功能。

所以，我们可以认为：一个包，就是一堆同类型功能的集合体。

在Python程序的生态中，有许多非常多的第三方包（非Python官方），可以极大的帮助我们提高开发效率，如：

科学计算中常用的： numpy包
数据分析中常用的：pandas包
大数据计算中常用的：pyspark、apache-flink包
图形可视化常用的: matplotlib,pyecharts
人工智能常用的：tensorflow
等

这些第三方的包，极大的丰富了Python的生态，提高了开发效率。

但是由于是第三方，所以Python没有内置，所以我们需要安装它们才可以导入使用哦。

安装第三方包 -pip

第三方包的安装非常简单，我们只需要使用Python内置的pip程序即可。

打开我们许久未见的：命令提示符程序，在里面输入：

pip install 包名称

即可通过网络快速安装第三方包

pip的网络优化

由于pip是连接的国外的网站进行包的下载,所以有的时候会速度很慢。

我们可以通过如下命令,让其连接国内的网站进行包的安装:

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple 包名称

二.1.1类和对象


xxxxxxxxxx
15
1
class cla:
2
    a = None
3
    b = None
4
    c = None
5
    d = None
6

7

8
c = cla()
9
c.a = "abc"
10
c.b = 1
11
c.c = 114.514
12
c.d = True
13
print(c)
14
print(type(c))
15
print(c.a)


xxxxxxxxxx
3
1
<__main__.cla object at 0x0000025DE9D36ED0>
2
<class '__main__.cla'>
3
abc


xxxxxxxxxx
14
1
class man:
2
    name = None
3

4
    def sayhi(self):
5
        print(f"我是{self.name}")
6

7
    def sayhi1(self, msg):
8
        print(f"我是{self.name},{msg}")
9

10

11
he = man()
12
he.name = "iurefbref"
13
he.sayhi()
14
he.sayhi1("hhhhhhh")


xxxxxxxxxx
2
1
我是iurefbref
2
我是iurefbref,hhhhhhh

(python不支持函数重载)


xxxxxxxxxx
9
1
def f1(a):
2
    print("a")
3

4

5
def f1(a, b):  # 覆盖上面的f1定义
6
    print("b")
7

8
f1(2)  # 报错
9
f1(2, 3)  # 正常

1.4构造方法

Python类可以使用：__init__()方法，称之为构造方法。

可以实现：

在创建类对象（构造类）的时候，会自动执行

在创建类对象（构造类）的时候，将传入参数自动传递给__init__方法使用。


xxxxxxxxxx
12
1
class student:
2
    name = None
3
    age = None
4
    tel = None
5

6
    def __init__(self, name, age, tel):
7
        self.name = name
8
        self.age = age
9
        self.tel = tel
10

11

12
stu = student("张三", 31, "1145141919810")


x
1
class student:
2

3
    def __init__(self, name, age, tel):
4
        self.name = name
5
        self.age = age
6
        self.tel = tel
7

8

9
stu = student("张三", 31, "1145141919810")

这样写也是对的

1.5魔术方法

上文学习的__init__构造方法，是Python类内置的方法之一。

这些内置的类方法,各自有各自特殊的功能,这些内置方法我们称之为:魔术方法

__init__构造方法
__str__字符串方法, 控制类转换成字符串时的行为
__lt__小于,大于符号比较
__le__小于等于,大于等于符号比较
__eq__==符号比较

`str`方法(类似重载`cout`)


xxxxxxxxxx
13
1
class student:
2

3
    def __init__(self, name, age, tel):
4
        self.name = name
5
        self.age = age
6
        self.tel = tel
7

8
    def __str__(self):
9
        return f"Student类对象, name = {self.name} , age = {self.age} , tel = {self.tel}"
10

11

12
stu = student("张三", 31, "1145141919810")
13
print(stu)


xxxxxxxxxx
1
1
Student类对象, name = 张三 , age = 31 , tel = 1145141919810

`lt`方法(类似重载‘<’,’>’)

__lt__本质上是小于符号比较的(lower than),但它也能做到大于符号比较

写该函数时,只需返回一个bool变量,表示用小于符号时为true的条件


xxxxxxxxxx
18
1
class student:
2

3
    def __init__(self, name, age, tel):
4
        self.name = name
5
        self.age = age
6
        self.tel = tel
7

8
    def __str__(self):
9
        return f"Student类对象, name = {self.name} , age = {self.age} , tel = {self.tel}"
10

11
    def __lt__(self, other):
12
        return self.age < other.age
13

14

15
stu1 = student("张三", 31, "1145141919810")
16
stu2 = student("里斯", 29, "1919810114514")
17
print(stu1 < stu2)
18
print(stu1 > stu2)


xxxxxxxxxx
2
1
False
2
True

`le`方法(类似重载>=,<=)

less equal


xxxxxxxxxx
18
1
class student:
2

3
    def __init__(self, name, age, tel):
4
        self.name = name
5
        self.age = age
6
        self.tel = tel
7

8
    def __str__(self):
9
        return f"Student类对象, name = {self.name} , age = {self.age} , tel = {self.tel}"
10

11
    def __le__(self, other):
12
        return self.age <= other.age
13

14

15
stu1 = student("张三", 31, "1145141919810")
16
stu2 = student("里斯", 31, "1919810114514")
17
print(stu1 <= stu2)
18
print(stu1 >= stu2)


xxxxxxxxxx
2
1
True
2
True

`eq`方法(类似重载==,!=)

equal

代码略

需要注意,对象自带比较==和!=的方法,当然只是比较内存地址是否相等

1.6封装

私有成员

既然现实事物有不公开的属性和行为，那么作为现实事物在程序中映射的类，也应该支持。

类中提供了私有成员的形式来支持。

私有成员变量
私有成员方法

定义私有成员的方式非常简单,只需要:

私有成员变量:变量名以__开头(2个下划线)
私有成员方法:方法名以__开头（2个下划线）

即可完成私有成员的设置

1.8继承


xxxxxxxxxx
20
1
class student:
2

3
    def __init__(self, name, age, tel):
4
        self.name = name
5
        self.age = age
6
        self.tel = tel
7

8
    def __str__(self):
9
        return f"Student类对象, name = {self.name} , age = {self.age} , tel = {self.tel}"
10

11
    def __le__(self, other):
12
        return self.age <= other.age
13

14

15
class dalao(student):
16
    GPA = 5.0
17

18

19
d1 = dalao("王五", 30, "114514")
20
print(d1.GPA)


xxxxxxxxxx
1
1
5.0

多继承:

class 类名(父类1,父类2,...):

括号内越靠左,优先级越高(存在同名方法时)

复写

子类继承父类的成员属性和成员方法后，如果对其“不满意”，那么可以进行复写。

即:在子类中重新定义同名的属性或方法即可。

调用父类同名成员

一旦复写父类成员，那么类对象调用成员的时候，就会调用复写后的新成员

如果需要使用被复写的父类的成员，需要特殊的调用方式：

方式1：调用父类成员
- 使用成员变量:父类名.成员变量
- 使用成员方法:父类名.成员方法(self)
方式2:使用super()调用父类成员
- 使用成员方法: super().成员方法()
- 使用成员变量：super().成员变量

1.10变量的类型注解

类型注解

Python在3.5版本的时候引入了类型注解,以方便静态类型检查工具,IDE等第三方工具。

类型注解:在代码中涉及数据交互的地方,提供数据类型的注解(显式的说明)。

主要功能：帮助第三方IDE工具（如PyCharm）对代码进行类型推断，协助做代码提示

帮助开发者自身对变量进行类型注释

支持：

变量的类型注解
函数(方法)形参列表和返回值的类型注解

按住需要用的函数和alt+enter可以自动搜索并导入包

类型注解是提示性的,而不是决定性的,以下的代码不会报错


xxxxxxxxxx
2
1
var: int = "itheima"
2
print(var)


xxxxxxxxxx
1
1
itheima

对于函数:形参注释

def 函数方法名(形参名: 类型, 形参名:类型, ...)->返回值类型:

union用法:


xxxxxxxxxx
3
1
from typing import Union
2

3
my_list: list[Union[str, int]] = [1, 2, "itheima", "itcast"]

1.13多态

话不多说,上代码


xxxxxxxxxx
32
1
class animal:  # 成为抽象类
2
    def speak(self):
3
        pass  # 说明是空实现
4

5

6
class dog(animal):
7
    def speak(self):
8
        print("汪汪汪")
9

10

11
class cat(animal):
12
    def speak(self):
13
        print("喵喵喵")
14

15

16
class robot:
17
    def speak(self):
18
        print("滋滋滋")
19

20

21
def make_noise(ani: animal):
22
    ani.speak()
23

24

25
a = animal()
26
b = dog()
27
c = cat()
28
d = robot()
29
make_noise(a)
30
make_noise(b)
31
make_noise(c)
32
make_noise(d)


xxxxxxxxxx
3
1
汪汪汪
2
喵喵喵
3
滋滋滋

numpy教程

矩阵基础

注意:矩阵必须满足所有行的元素个数相等,像b=np.array([[5,6,3,4],[2,4,7]])是不合法的


xxxxxxxxxx
9
1
import numpy as np
2
arr=np.array([[1,2,3],
3
              [2,3,4]])
4
print(arr)
5
print([[1,2,3],
6
       [4,5,6]])
7
print(f"arr是{arr.ndim}维矩阵")
8
print(f"行数和列数为{arr.shape}")
9
print(f"arr中的元素总数为{arr.size}")


xxxxxxxxxx
6
1
[[1 2 3]
2
 [2 3 4]]
3
[[1, 2, 3], [4, 5, 6]]
4
arr是2维矩阵
5
行数和列数为(2, 3)
6
arr中的元素总数为6

dtype元素的类型

定义矩阵时可以用dtype声明元素的类型,常见包括

int64 64位整数
int32 32位整数
float32
float64
float16

了解更多numpy的数据类型,请阅读


xxxxxxxxxx
4
1
import numpy as np
2
arr=np.array([2,2333,3,4],np.dtype(np.float64))
3
print(arr.dtype)
4
print(arr)


xxxxxxxxxx
2
1
float64
2
[2.000e+00 2.333e+03 3.000e+00 4.000e+00]

zeros 全零矩阵


xxxxxxxxxx
4
1
import numpy as np
2
a=np.zeros((3,4))
3
print(a)
4
print(a.dtype)


xxxxxxxxxx
4
1
[[0. 0. 0. 0.]
2
 [0. 0. 0. 0.]
3
 [0. 0. 0. 0.]]
4
float64

ones 全一矩阵


xxxxxxxxxx
4
1
import numpy as np
2
a=np.ones((3,4))
3
print(a)
4
print(a.dtype)


xxxxxxxxxx
4
1
[[1. 1. 1. 1.]
2
 [1. 1. 1. 1.]
3
 [1. 1. 1. 1.]]
4
float64

empty 元素都几乎接近0的矩阵


xxxxxxxxxx
4
1
import numpy as np
2
a=np.empty((3,4))
3
print(a)
4
print(a.dtype)


xxxxxxxxxx
4
1
[[6.95322371e-310 0.00000000e+000 0.00000000e+000 0.00000000e+000]
2
 [0.00000000e+000 0.00000000e+000 0.00000000e+000 0.00000000e+000]
3
 [0.00000000e+000 0.00000000e+000 0.00000000e+000 0.00000000e+000]]
4
float64

arrange 某一区间的数列

np.arrange(a,b,c)等价于matlab中的a:c:b


xxxxxxxxxx
7
1
import numpy as np
2
a=np.arange(12)
3
print(a)
4
b=np.arange(2,10)
5
print(b)
6
c=np.arange(4,15,2)
7
print(c)


xxxxxxxxxx
3
1
[ 0  1  2  3  4  5  6  7  8  9 10 11]
2
[2 3 4 5 6 7 8 9]
3
[ 4  6  8 10 12 14]

reshape 改变矩阵形状


xxxxxxxxxx
4
1
import numpy as np
2
a=np.arange(12)
3
a=a.reshape((3,4))
4
print(a)


xxxxxxxxxx
3
1
[[ 0  1  2  3]
2
 [ 4  5  6  7]
3
 [ 8  9 10 11]]

linspace(开始,结尾,分几段)


xxxxxxxxxx
4
1
import numpy as np
2
a=np.linspace(1,5,9)
3
print(a.reshape(3,3))
4
print(a)


xxxxxxxxxx
4
1
[[1.  1.5 2. ]
2
 [2.5 3.  3.5]
3
 [4.  4.5 5. ]]
4
[1.  1.5 2.  2.5 3.  3.5 4.  4.5 5. ]

随机矩阵


xxxxxxxxxx
3
1
import numpy as np
2
a=np.random.random((3,2))
3
print(a)


xxxxxxxxxx
3
1
[[0.81661957 0.66981303]
2
 [0.50054947 0.85381138]
3
 [0.36714028 0.16603213]]

矩阵运算

矩阵和标量的基本运算


xxxxxxxxxx
10
1
import numpy as np
2
a=np.array([1,2,3,4,5])
3
print(a)
4
print(a+2)
5
print(a-3)
6
print(a*5)
7
print(a/4)
8
print(a//4)
9
print(a**2)
10
print(a*np.sin(a))


xxxxxxxxxx
8
1
[1 2 3 4 5]
2
[3 4 5 6 7]
3
[-2 -1  0  1  2]
4
[ 5 10 15 20 25]
5
[0.25 0.5  0.75 1.   1.25]
6
[0 0 0 1 1]
7
[ 1  4  9 16 25]
8
[ 0.84147098  1.81859485  0.42336002 -3.02720998 -4.79462137]

矩阵元素的判断


xxxxxxxxxx
4
1
import numpy as np
2
a=np.array([1,2,3,4,5])
3
print(a)
4
print(a<=3)


xxxxxxxxxx
2
1
[1 2 3 4 5]
2
[ True  True  True False False]

元素乘法和矩阵乘法


xxxxxxxxxx
11
1
import numpy as np
2
a=np.array([[1,1],
3
            [0,1]])
4
b=np.array([[0,1],
5
            [2,3]])
6
c=a*b  # 逐个元素相乘
7
print(c)
8
c_dot=np.dot(a,b) # 矩阵乘法
9
print(c_dot)
10
c_dot_2=a.dot(b)  #矩阵乘法的另一种写法
11
print(c_dot_2)


xxxxxxxxxx
6
1
[[0 1]
2
 [0 3]]
3
[[2 4]
4
 [2 3]]
5
[[2 4]
6
 [2 3]]

求和sum,最小值min,最大值max


xxxxxxxxxx
6
1
import numpy as np
2
a=np.random.random((3,2))
3
print(a)
4
print(np.sum(a))
5
print(np.min(a))
6
print(np.max(a))


xxxxxxxxxx
6
1
[[0.16496185 0.9437828 ]
2
 [0.81840345 0.89624578]
3
 [0.26440633 0.74531292]]
4
3.833113133002955
5
0.16496184822955373
6
0.9437827991060538

使用axis axis的意义是维度数


xxxxxxxxxx
6
1
import numpy as np
2
a=np.array([[1,2,3,4],
3
            [2,3,4,5],
4
            [3,4,5,6]])
5
print(np.sum(a,axis=0))  # 对列求和
6
print(np.sum(a,axis=1))  # 对行求和


xxxxxxxxxx
2
1
[ 6  9 12 15]
2
[10 14 18]

min,max,mean也适用axis

argmin,argmax矩阵中最小最大值的索引


xxxxxxxxxx
4
1
import numpy as np
2
a=np.arange(2,14).reshape((3,4))
3
print(np.argmin(a))
4
print(np.argmax(a))


xxxxxxxxxx
2
1
0
2
11

mean平均值 median中位数


xxxxxxxxxx
6
1
import numpy as np
2
a=np.arange(2,14).reshape((3,4))
3
print(np.mean(a))
4
print(np.average(a))
5
print(a.mean())
6
print(np.median(a))


xxxxxxxxxx
4
1
7.5
2
7.5
3
7.5
4
7.5

cumsum累加数组 diff数组差分


xxxxxxxxxx
5
1
import numpy as np
2
a=np.arange(2,14).reshape((3,4))
3
print(a)
4
print(np.cumsum(a))
5
print(np.diff(a))


xxxxxxxxxx
7
1
[[ 2  3  4  5]
2
 [ 6  7  8  9]
3
 [10 11 12 13]]
4
[ 2  5  9 14 20 27 35 44 54 65 77 90]
5
[[1 1 1]
6
 [1 1 1]
7
 [1 1 1]]

sort排序每行


xxxxxxxxxx
4
1
import numpy as np
2
a=np.arange(14,2,-1).reshape((3,4))
3
print(a)
4
print(np.sort(a))


xxxxxxxxxx
6
1
[[14 13 12 11]
2
 [10  9  8  7]
3
 [ 6  5  4  3]]
4
[[11 12 13 14]
5
 [ 7  8  9 10]
6
 [ 3  4  5  6]]

矩阵转置


xxxxxxxxxx
5
1
import numpy as np
2
a=np.arange(14,2,-1).reshape((3,4))
3
print(a)
4
print(np.transpose(a))
5
print(a.T)


xxxxxxxxxx
11
1
[[14 13 12 11]
2
 [10  9  8  7]
3
 [ 6  5  4  3]]
4
[[14 10  6]
5
 [13  9  5]
6
 [12  8  4]
7
 [11  7  3]]
8
[[14 10  6]
9
 [13  9  5]
10
 [12  8  4]
11
 [11  7  3]]

clip(矩阵,矩阵中保留数的下限,矩阵中保留数的上限)


xxxxxxxxxx
4
1
import numpy as np
2
a=np.arange(14,2,-1).reshape((3,4))
3
print(a)
4
print(np.clip(a,5,9))


xxxxxxxxxx
6
1
[[14 13 12 11]
2
 [10  9  8  7]
3
 [ 6  5  4  3]]
4
[[9 9 9 9]
5
 [9 9 8 7]
6
 [6 5 5 5]]

矩阵索引

下标从0开始算

对于行向量,a[i]会取出下标为i的元素


xxxxxxxxxx
4
1
import numpy as np
2
a=np.arange(3,15)
3
print(a)
4
print(a[3])


xxxxxxxxxx
2
1
[ 3  4  5  6  7  8  9 10 11 12 13 14]
2
6

对于3行4列的矩阵,a[i]取出第i行


xxxxxxxxxx
4
1
import numpy as np
2
a=np.arange(3,15).reshape(3,4)
3
print(a)
4
print(a[2])


xxxxxxxxxx
4
1
[[ 3  4  5  6]
2
 [ 7  8  9 10]
3
 [11 12 13 14]]
4
[11 12 13 14]


xxxxxxxxxx
5
1
import numpy as np
2
a=np.arange(3,15).reshape(3,4)
3
print(a)
4
print(a[2][1])
5
print(a[2,1])


xxxxxxxxxx
5
1
[[ 3  4  5  6]
2
 [ 7  8  9 10]
3
 [11 12 13 14]]
4
12
5
12

利用冒号

注意:取出来的都是行向量


xxxxxxxxxx
7
1
import numpy as np
2
a=np.arange(3,15).reshape(3,4)
3
print(a)
4
print(a[2,:])  # 第2行所有的数
5
print(a[:,1])  # 第1列所有的数
6
print(a[1,1:3]) # 取第1行1~2列（不包括下标为3）
7
print(a[0,0:4:2])  #第0行，从第0列开始，每隔2个数取一次，直到下标为4（不包括下标为4）


xxxxxxxxxx
7
1
[[ 3  4  5  6]
2
 [ 7  8  9 10]
3
 [11 12 13 14]]
4
[11 12 13 14]
5
[ 4  8 12]
6
[8 9]
7
[3 5]

flat和flatten


xxxxxxxxxx
4
1
import numpy as np
2
a=np.arange(3,15).reshape(3,4)
3
print(a.flat)  # 这是一个迭代器
4
print(a.flatten())  #展开矩阵


xxxxxxxxxx
2
1
<numpy.flatiter object at 0x0000021DAA7D7CE0>
2
[ 3  4  5  6  7  8  9 10 11 12 13 14]

for循环遍历


xxxxxxxxxx
7
1
import numpy as np
2
a=np.arange(3,15).reshape(3,4)
3
print(a)
4
for row in a:
5
    print(row)  # 取出所有行
6
for col in a.T:
7
    print(col)  # 取出所有列


xxxxxxxxxx
10
1
[[ 3  4  5  6]
2
 [ 7  8  9 10]
3
 [11 12 13 14]]
4
[3 4 5 6]
5
[ 7  8  9 10]
6
[11 12 13 14]
7
[ 3  7 11]
8
[ 4  8 12]
9
[ 5  9 13]
10
[ 6 10 14]

遍历所有元素


xxxxxxxxxx
5
1
import numpy as np
2
a=np.arange(3,15).reshape(3,4)
3
print(a)
4
for item in a.flat:
5
    print(item,end=" ")


xxxxxxxxxx
4
1
[[ 3  4  5  6]
2
 [ 7  8  9 10]
3
 [11 12 13 14]]
4
3 4 5 6 7 8 9 10 11 12 13 14

矩阵的合并


xxxxxxxxxx
7
1
import numpy as np
2
a=np.array([1,1,1])
3
b=np.array([2,2,2])
4
c=np.vstack((a,b))  # vertical stack
5
d=np.hstack((a,b))  # horizontal stack
6
print(c)
7
print(d)


xxxxxxxxxx
3
1
[[1 1 1]
2
 [2 2 2]]
3
[1 1 1 2 2 2]

转置合并


xxxxxxxxxx
5
1
import numpy as np
2
a=np.array([1,1,1])[:,np.newaxis]
3
b=np.array([2,2,2])[:,np.newaxis]
4
d=np.hstack((a,b))
5
print(d)


xxxxxxxxxx
3
1
[[1 2]
2
 [1 2]
3
 [1 2]]

newaxis的使用

newaxis用于增加维度


xxxxxxxxxx
9
1
import numpy as np
2
a=np.array([1,1,1])
3
print(a.shape)
4
c=a[:,np.newaxis]
5
print(c)
6
print(c.shape)
7
d=a[np.newaxis,:]
8
print(d)
9
print(d.shape)


xxxxxxxxxx
7
1
(3,)
2
[[1]
3
 [1]
4
 [1]]
5
(3, 1)
6
[[1 1 1]]
7
(1, 3)

concatenate矩阵拼接


xxxxxxxxxx
5
1
import numpy as np
2
a=np.array([1,1,1])[:,np.newaxis]
3
b=np.array([2,2,2])[:,np.newaxis]
4
print(np.concatenate((a,b,b,a),axis=0))
5
print(np.concatenate((a,b,b,a),axis=1))


xxxxxxxxxx
15
1
[[1]
2
 [1]
3
 [1]
4
 [2]
5
 [2]
6
 [2]
7
 [2]
8
 [2]
9
 [2]
10
 [1]
11
 [1]
12
 [1]]
13
[[1 2 2 1]
14
 [1 2 2 1]
15
 [1 2 2 1]]

深浅拷贝


xxxxxxxxxx
4
1
import numpy as np
2
a=np.arange(4)
3
b=a
4
print(b is a)


xxxxxxxxxx
1
1
True

等号复制是浅拷贝


xxxxxxxxxx
7
1
import numpy as np
2
a=np.arange(4)
3
b=a
4
print(a)
5
a[0]=11
6
print(a)
7
print(b)


xxxxxxxxxx
3
1
[0 1 2 3]
2
[11  1  2  3]
3
[11  1  2  3]

利用copy深拷贝


xxxxxxxxxx
8
1
import numpy as np
2
a=np.arange(4)
3
b=a.copy()
4
print(b is a)
5
print(a)
6
a[1:3]=[22,33]
7
print(a)
8
print(b)


xxxxxxxxxx
4
1
False
2
[0 1 2 3]
3
[ 0 22 33  3]
4
[0 1 2 3]

pandas教程

表格基础


xxxxxxxxxx
4
1
import pandas as pd
2
import numpy as np
3
s=pd.Series([1,3,6,np.nan,44,1])
4
print(s)


xxxxxxxxxx
7
1
0     1.0
2
1     3.0
3
2     6.0
4
3     NaN
5
4    44.0
6
5     1.0
7
dtype: float64

shape获取表格长度，返回元组(行数,列数)

日期序列


xxxxxxxxxx
4
1
import pandas as pd
2
import numpy as np
3
dates=pd.date_range('20160101',periods=6)
4
print(dates)


xxxxxxxxxx
3
1
DatetimeIndex(['2016-01-01', '2016-01-02', '2016-01-03', '2016-01-04',
2
               '2016-01-05', '2016-01-06'],
3
              dtype='datetime64[ns]', freq='D')

DataFrame生成表格

利用index和columns设置表头


xxxxxxxxxx
5
1
import pandas as pd
2
import numpy as np
3
dates=pd.date_range('20160101',periods=6)
4
df=pd.DataFrame(np.random.randn(6,4),index=dates,columns=['a','b','c','d'])
5
print(df)


xxxxxxxxxx
7
1
                   a         b         c         d
2
2016-01-01  0.902005 -0.463295  0.066307  1.064827
3
2016-01-02 -0.430363 -0.213347 -0.162768 -0.369665
4
2016-01-03 -0.923885 -1.808873  1.686310  0.518044
5
2016-01-04 -0.343998 -0.204547 -0.443543 -0.461751
6
2016-01-05 -0.309939 -1.194092 -0.590669 -0.418642
7
2016-01-06  0.845991 -0.515617 -0.394218  0.477955

采用默认的表头


xxxxxxxxxx
4
1
import pandas as pd
2
import numpy as np
3
df=pd.DataFrame(np.arange(12).reshape((3,4)))
4
print(df)


xxxxxxxxxx
4
1
   0  1   2   3
2
0  0  1   2   3
3
1  4  5   6   7
4
2  8  9  10  11

使用字典建立表格


xxxxxxxxxx
24
1
import pandas as pd
2
import numpy as np
3
df=pd.DataFrame({'A':1.,
4
                 'B':pd.Timestamp('20130102'),
5
                 'C':pd.Series(1,index=list(range(4)),dtype='float32'),
6
                 'D':np.array([3]*4,dtype='int32'),
7
                 'E':pd.Categorical(["test","train","test","train"]),
8
                 'F':'foo'
9
                 })
10
print("df表格：\n",df)
11
print("各列的类型\n",df.dtypes)
12
print("打印各行表头\n",df.index)
13
print("打印各列表头\n",df.columns)
14
print("取出所有列\n",df.values)  # 取出所有列
15
print("表格统计数据\n",df.describe())  # 打印表格统计数据
16
t=df.T  # 转置表格
17
print("转置后的表格\n",t)
18
df1=df.sort_index(axis=1,ascending=False)  # df不变，排序结果在df1，对列表头排序
19
print("对列表头排序\n",df1)
20
df2=df.sort_index(axis=0,ascending=False)  # df不变，排序结果在df2,对行表头排序
21
print("对行表头排序\n",df2)
22
# 还可以对值排序
23
df3=df.sort_values(by='E')
24
print("对值排序\n",df3)


xxxxxxxxxx
61
1
df表格：
2
      A          B    C  D      E    F
3
0  1.0 2013-01-02  1.0  3   test  foo
4
1  1.0 2013-01-02  1.0  3  train  foo
5
2  1.0 2013-01-02  1.0  3   test  foo
6
3  1.0 2013-01-02  1.0  3  train  foo
7
各列的类型
8
 A           float64
9
B    datetime64[ns]
10
C           float32
11
D             int32
12
E          category
13
F            object
14
dtype: object
15
打印各行表头
16
 Index([0, 1, 2, 3], dtype='int64')
17
打印各列表头
18
 Index(['A', 'B', 'C', 'D', 'E', 'F'], dtype='object')
19
取出所有列
20
 [[1.0 Timestamp('2013-01-02 00:00:00') 1.0 3 'test' 'foo']
21
 [1.0 Timestamp('2013-01-02 00:00:00') 1.0 3 'train' 'foo']
22
 [1.0 Timestamp('2013-01-02 00:00:00') 1.0 3 'test' 'foo']
23
 [1.0 Timestamp('2013-01-02 00:00:00') 1.0 3 'train' 'foo']]
24
表格统计数据
25
          A                    B    C    D
26
count  4.0                    4  4.0  4.0
27
mean   1.0  2013-01-02 00:00:00  1.0  3.0
28
min    1.0  2013-01-02 00:00:00  1.0  3.0
29
25%    1.0  2013-01-02 00:00:00  1.0  3.0
30
50%    1.0  2013-01-02 00:00:00  1.0  3.0
31
75%    1.0  2013-01-02 00:00:00  1.0  3.0
32
max    1.0  2013-01-02 00:00:00  1.0  3.0
33
std    0.0                  NaN  0.0  0.0
34
转置后的表格
35
                      0  ...                    3
36
A                  1.0  ...                  1.0
37
B  2013-01-02 00:00:00  ...  2013-01-02 00:00:00
38
C                  1.0  ...                  1.0
39
D                    3  ...                    3
40
E                 test  ...                train
41
F                  foo  ...                  foo
42

43
[6 rows x 4 columns]
44
对列表头排序
45
      F      E  D    C          B    A
46
0  foo   test  3  1.0 2013-01-02  1.0
47
1  foo  train  3  1.0 2013-01-02  1.0
48
2  foo   test  3  1.0 2013-01-02  1.0
49
3  foo  train  3  1.0 2013-01-02  1.0
50
对行表头排序
51
      A          B    C  D      E    F
52
3  1.0 2013-01-02  1.0  3  train  foo
53
2  1.0 2013-01-02  1.0  3   test  foo
54
1  1.0 2013-01-02  1.0  3  train  foo
55
0  1.0 2013-01-02  1.0  3   test  foo
56
对值排序
57
      A          B    C  D      E    F
58
0  1.0 2013-01-02  1.0  3   test  foo
59
2  1.0 2013-01-02  1.0  3   test  foo
60
1  1.0 2013-01-02  1.0  3  train  foo
61
3  1.0 2013-01-02  1.0  3  train  foo

选择数据


xxxxxxxxxx
9
1
import pandas as pd
2
import numpy as np
3
dates=pd.date_range('20130101',periods=6)
4
df=pd.DataFrame(np.arange(24).reshape((6,4)),index=dates,columns=['A','B','C','D'])
5
print("表格\n",df)
6
print("名为A的列\n",df['A'])
7
print("名为A的列\n",df.A)
8
print("[0,3)行\n",df[0:3])
9
print("'20130102':'20130104'\n",df['20130102':'20130104'])


xxxxxxxxxx
34
1
表格
2
              A   B   C   D
3
2013-01-01   0   1   2   3
4
2013-01-02   4   5   6   7
5
2013-01-03   8   9  10  11
6
2013-01-04  12  13  14  15
7
2013-01-05  16  17  18  19
8
2013-01-06  20  21  22  23
9
名为A的列
10
 2013-01-01     0
11
2013-01-02     4
12
2013-01-03     8
13
2013-01-04    12
14
2013-01-05    16
15
2013-01-06    20
16
Freq: D, Name: A, dtype: int32
17
名为A的列
18
 2013-01-01     0
19
2013-01-02     4
20
2013-01-03     8
21
2013-01-04    12
22
2013-01-05    16
23
2013-01-06    20
24
Freq: D, Name: A, dtype: int32
25
[0,3)行
26
             A  B   C   D
27
2013-01-01  0  1   2   3
28
2013-01-02  4  5   6   7
29
2013-01-03  8  9  10  11
30
'20130102':'20130104'
31
              A   B   C   D
32
2013-01-02   4   5   6   7
33
2013-01-03   8   9  10  11
34
2013-01-04  12  13  14  15

loc: select by label


xxxxxxxxxx
8
1
import pandas as pd
2
import numpy as np
3
dates=pd.date_range('20130101',periods=6)
4
df=pd.DataFrame(np.arange(24).reshape((6,4)),index=dates,columns=['A','B','C','D'])
5
print("表格\n",df)
6
print("取出'20130102'行\n",df.loc['20130102'])
7
print("取出A列和B列\n",df.loc[:,['A','B']])
8
print("取出指定行和指定列\n",df.loc['20130102',['A','B']])


xxxxxxxxxx
26
1
表格
2
              A   B   C   D
3
2013-01-01   0   1   2   3
4
2013-01-02   4   5   6   7
5
2013-01-03   8   9  10  11
6
2013-01-04  12  13  14  15
7
2013-01-05  16  17  18  19
8
2013-01-06  20  21  22  23
9
取出'20130102'行
10
 A    4
11
B    5
12
C    6
13
D    7
14
Name: 2013-01-02 00:00:00, dtype: int32
15
取出A列和B列
16
              A   B
17
2013-01-01   0   1
18
2013-01-02   4   5
19
2013-01-03   8   9
20
2013-01-04  12  13
21
2013-01-05  16  17
22
2013-01-06  20  21
23
取出指定行和指定列
24
 A    4
25
B    5
26
Name: 2013-01-02 00:00:00, dtype: int32

iloc: select by position


xxxxxxxxxx
8
1
import pandas as pd
2
import numpy as np
3
dates=pd.date_range('20130101',periods=6)
4
df=pd.DataFrame(np.arange(24).reshape((6,4)),index=dates,columns=['A','B','C','D'])
5
print("表格\n",df)
6
print(df.iloc[3,1])
7
print(df.iloc[3:5,1])
8
print(df.iloc[[1,3,5],1:3])  # 不连续地筛选


xxxxxxxxxx
16
1
表格
2
              A   B   C   D
3
2013-01-01   0   1   2   3
4
2013-01-02   4   5   6   7
5
2013-01-03   8   9  10  11
6
2013-01-04  12  13  14  15
7
2013-01-05  16  17  18  19
8
2013-01-06  20  21  22  23
9
13
10
2013-01-04    13
11
2013-01-05    17
12
Freq: D, Name: B, dtype: int32
13
             B   C
14
2013-01-02   5   6
15
2013-01-04  13  14
16
2013-01-06  21  22

bool判断


xxxxxxxxxx
7
1
import pandas as pd
2
import numpy as np
3
dates=pd.date_range('20130101',periods=6)
4
df=pd.DataFrame(np.arange(24).reshape((6,4)),index=dates,columns=['A','B','C','D'])
5
print("表格\n",df)
6
print(df.A>8)
7
print(df[df.A>8])


xxxxxxxxxx
19
1
表格
2
              A   B   C   D
3
2013-01-01   0   1   2   3
4
2013-01-02   4   5   6   7
5
2013-01-03   8   9  10  11
6
2013-01-04  12  13  14  15
7
2013-01-05  16  17  18  19
8
2013-01-06  20  21  22  23
9
2013-01-01    False
10
2013-01-02    False
11
2013-01-03    False
12
2013-01-04     True
13
2013-01-05     True
14
2013-01-06     True
15
Freq: D, Name: A, dtype: bool
16
             A   B   C   D
17
2013-01-04  12  13  14  15
18
2013-01-05  16  17  18  19
19
2013-01-06  20  21  22  23

修改指定位置的值


xxxxxxxxxx
6
1
import pandas as pd
2
import numpy as np
3
dates=pd.date_range('20130101',periods=6)
4
df=pd.DataFrame(np.arange(24).reshape((6,4)),index=dates,columns=['A','B','C','D'])
5
df.iloc[2,2]=114514
6
print("表格\n",df)


xxxxxxxxxx
8
1
表格
2
              A   B       C   D
3
2013-01-01   0   1       2   3
4
2013-01-02   4   5       6   7
5
2013-01-03   8   9  114514  11
6
2013-01-04  12  13      14  15
7
2013-01-05  16  17      18  19
8
2013-01-06  20  21      22  23

修改符合条件的表格元素


xxxxxxxxxx
7
1
import pandas as pd
2
import numpy as np
3
dates=pd.date_range('20130101',periods=6)
4
df=pd.DataFrame(np.arange(24).reshape((6,4)),index=dates,columns=['A','B','C','D'])
5
print("表格\n",df)
6
df[df>5]=-1
7
print(df)


xxxxxxxxxx
15
1
表格
2
              A   B   C   D
3
2013-01-01   0   1   2   3
4
2013-01-02   4   5   6   7
5
2013-01-03   8   9  10  11
6
2013-01-04  12  13  14  15
7
2013-01-05  16  17  18  19
8
2013-01-06  20  21  22  23
9
            A  B  C  D
10
2013-01-01  0  1  2  3
11
2013-01-02  4  5 -1 -1
12
2013-01-03 -1 -1 -1 -1
13
2013-01-04 -1 -1 -1 -1
14
2013-01-05 -1 -1 -1 -1
15
2013-01-06 -1 -1 -1 -1

修改符合条件的行


xxxxxxxxxx
7
1
import pandas as pd
2
import numpy as np
3
dates=pd.date_range('20130101',periods=6)
4
df=pd.DataFrame(np.arange(24).reshape((6,4)),index=dates,columns=['A','B','C','D'])
5
print("表格\n",df)
6
df[df.A>4]=-11
7
print(df)


xxxxxxxxxx
15
1
表格
2
              A   B   C   D
3
2013-01-01   0   1   2   3
4
2013-01-02   4   5   6   7
5
2013-01-03   8   9  10  11
6
2013-01-04  12  13  14  15
7
2013-01-05  16  17  18  19
8
2013-01-06  20  21  22  23
9
             A   B   C   D
10
2013-01-01   0   1   2   3
11
2013-01-02   4   5   6   7
12
2013-01-03 -11 -11 -11 -11
13
2013-01-04 -11 -11 -11 -11
14
2013-01-05 -11 -11 -11 -11
15
2013-01-06 -11 -11 -11 -11


xxxxxxxxxx
7
1
import pandas as pd
2
import numpy as np
3
dates=pd.date_range('20130101',periods=6)
4
df=pd.DataFrame(np.arange(24).reshape((6,4)),index=dates,columns=['A','B','C','D'])
5
print("表格\n",df)
6
df[df>4]=df*10+6
7
print(df)


xxxxxxxxxx
15
1
表格
2
              A   B   C   D
3
2013-01-01   0   1   2   3
4
2013-01-02   4   5   6   7
5
2013-01-03   8   9  10  11
6
2013-01-04  12  13  14  15
7
2013-01-05  16  17  18  19
8
2013-01-06  20  21  22  23
9
              A    B    C    D
10
2013-01-01    0    1    2    3
11
2013-01-02    4   56   66   76
12
2013-01-03   86   96  106  116
13
2013-01-04  126  136  146  156
14
2013-01-05  166  176  186  196
15
2013-01-06  206  216  226  236

插入新的列


xxxxxxxxxx
9
1
import pandas as pd
2
import numpy as np
3
dates=pd.date_range('20130101',periods=6)
4
df=pd.DataFrame(np.arange(24).reshape((6,4)),index=dates,columns=['A','B','C','D'])
5
print("表格\n",df)
6
df['F']=np.nan
7
df['G']=np.arange(6)
8
df['H']=pd.Series([6,5,4,3,2,1],index=pd.date_range('20130101',periods=6))
9
print(df)


xxxxxxxxxx
15
1
表格
2
              A   B   C   D
3
2013-01-01   0   1   2   3
4
2013-01-02   4   5   6   7
5
2013-01-03   8   9  10  11
6
2013-01-04  12  13  14  15
7
2013-01-05  16  17  18  19
8
2013-01-06  20  21  22  23
9
             A   B   C   D   F  G  H
10
2013-01-01   0   1   2   3 NaN  0  6
11
2013-01-02   4   5   6   7 NaN  1  5
12
2013-01-03   8   9  10  11 NaN  2  4
13
2013-01-04  12  13  14  15 NaN  3  3
14
2013-01-05  16  17  18  19 NaN  4  2
15
2013-01-06  20  21  22  23 NaN  5  1

处理丢失的数据

dropna删除丢失的数据行列

axis=0时删除含有nan的行

axis=1时删除含有nan的列

how=‘any’表示只要有nan就删除

how=‘all’表示删除所有都是nan的行/列


xxxxxxxxxx
9
1
import pandas as pd
2
import numpy as np
3
dates=pd.date_range('20130101',periods=6)
4
df=pd.DataFrame(np.arange(24).reshape((6,4)),index=dates,columns=['A','B','C','D'])
5
df.iloc[1,2]=np.nan
6
df.iloc[4,:]=np.nan
7
print("表格\n",df)
8
print(df.dropna(axis=0,how='any'))
9
print(df.dropna(axis=0,how='all'))


xxxxxxxxxx
19
1
表格
2
                A     B     C     D
3
2013-01-01   0.0   1.0   2.0   3.0
4
2013-01-02   4.0   5.0   NaN   7.0
5
2013-01-03   8.0   9.0  10.0  11.0
6
2013-01-04  12.0  13.0  14.0  15.0
7
2013-01-05   NaN   NaN   NaN   NaN
8
2013-01-06  20.0  21.0  22.0  23.0
9
               A     B     C     D
10
2013-01-01   0.0   1.0   2.0   3.0
11
2013-01-03   8.0   9.0  10.0  11.0
12
2013-01-04  12.0  13.0  14.0  15.0
13
2013-01-06  20.0  21.0  22.0  23.0
14
               A     B     C     D
15
2013-01-01   0.0   1.0   2.0   3.0
16
2013-01-02   4.0   5.0   NaN   7.0
17
2013-01-03   8.0   9.0  10.0  11.0
18
2013-01-04  12.0  13.0  14.0  15.0
19
2013-01-06  20.0  21.0  22.0  23.0

fillna给nan赋值 isnull返回对应布尔矩阵


xxxxxxxxxx
10
1
import pandas as pd
2
import numpy as np
3
dates=pd.date_range('20130101',periods=6)
4
df=pd.DataFrame(np.arange(24).reshape((6,4)),index=dates,columns=['A','B','C','D'])
5
df.iloc[1,2]=np.nan
6
df.iloc[4,:]=np.nan
7
print("表格\n",df)
8
print(df.fillna(value=0))
9
print(df.isnull())
10
print(np.any(df.isnull())==True)  # 在表格中寻找是否存在一个nan


xxxxxxxxxx
23
1
表格
2
                A     B     C     D
3
2013-01-01   0.0   1.0   2.0   3.0
4
2013-01-02   4.0   5.0   NaN   7.0
5
2013-01-03   8.0   9.0  10.0  11.0
6
2013-01-04  12.0  13.0  14.0  15.0
7
2013-01-05   NaN   NaN   NaN   NaN
8
2013-01-06  20.0  21.0  22.0  23.0
9
               A     B     C     D
10
2013-01-01   0.0   1.0   2.0   3.0
11
2013-01-02   4.0   5.0   0.0   7.0
12
2013-01-03   8.0   9.0  10.0  11.0
13
2013-01-04  12.0  13.0  14.0  15.0
14
2013-01-05   0.0   0.0   0.0   0.0
15
2013-01-06  20.0  21.0  22.0  23.0
16
                A      B      C      D
17
2013-01-01  False  False  False  False
18
2013-01-02  False  False   True  False
19
2013-01-03  False  False  False  False
20
2013-01-04  False  False  False  False
21
2013-01-05   True   True   True   True
22
2013-01-06  False  False  False  False
23
True

读写文件

读文件:

read_csv

read_excel

read_hdf

read_sql

read_json

read_msgpack (experimental)

read_html

read_gbq (experimental)

read_stata

read_sas

read_clipboard

read_pickle

写文件:

to_csv

to_excel

to_hdf

to_sql

to_json

to_msgpack (experimental)

to_html

to_gbq (experimental)

to_stata

to_clipboard

to_pickle

测试文件下载:

students.xlsx

students.csv

读取csv


xxxxxxxxxx
4
1
import pandas as pd
2
import numpy as np
3
data=pd.read_csv('students.csv',sep='\t')
4
print(data)


xxxxxxxxxx
14
1
    Student ID   name  age  gender
2
0         1100  Kelly   22  Female
3
1         1101    Clo   21  Female
4
2         1102  Tilly   22  Female
5
3         1103   Tony   24    Male
6
4         1104  David   20    Male
7
5         1105  Catty   22  Female
8
6         1106      M    3  Female
9
7         1107   name   43    Male
10
8         1108      A   13    Male
11
9         1109      S   12    Male
12
10        1110  David   33    Male
13
11        1111     Dw    3  Female
14
12        1112      Q   23    Male

读取excel

参考文献


xxxxxxxxxx
7
1
import pandas as pd
2
import numpy as np
3
file='students.xlsx'
4
f=open(file,'rb')
5
df=pd.read_excel(f,sheet_name='Sheet1')
6
print(df)
7
f.close()


xxxxxxxxxx
14
1
    Student ID   name  age  gender
2
0         1100  Kelly   22  Female
3
1         1101    Clo   21  Female
4
2         1102  Tilly   22  Female
5
3         1103   Tony   24    Male
6
4         1104  David   20    Male
7
5         1105  Catty   22  Female
8
6         1106      M    3  Female
9
7         1107   name   43    Male
10
8         1108      A   13    Male
11
9         1109      S   12    Male
12
10        1110  David   33    Male
13
11        1111     Dw    3  Female
14
12        1112      Q   23    Male

输出excel


xxxxxxxxxx
3
1
with pd.ExcelWriter(filepath) as writer:
2
    df.to_excel(writer, sheet_name='Sheet1')
3
    df2.to_excel(writer, sheet_name='Sheet2')

示例一：

示例文件students.xlsx


xxxxxxxxxx
30
1
import pandas as pd
2
import numpy as np
3
file='students.xlsx'
4
f=open(file,'rb')
5
df=pd.read_excel(f,sheet_name='Sheet1')
6
print(df)
7
f.close()
8

9
df1=df.iloc[:,2]>=10
10
df2=df[df1]
11
df2=df2.sort_values(by='age')
12

13
print(df2)
14
for i in range(df2.shape[0]):
15
    if df2.iloc[i,3]=="Male":
16
        df2.iloc[i,3]="沃尔玛塑料袋"
17
    else:
18
        df2.iloc[i,3]="武装直升机"
19
    if len(df2.iloc[i,1])<3:
20
        df2.iloc[i,1]="hahaha"+df2.iloc[i,1]
21
    df2.iloc[i,0]+=22330000
22
df2=df2.reset_index()  # 重置index
23
print(df2)
24

25
# 输出为excel
26
filepath=".\\df2.xlsx"
27

28
with pd.ExcelWriter(filepath) as writer:
29
    df.to_excel(writer, sheet_name='Sheet1')
30
    df2.to_excel(writer, sheet_name='Sheet2')

concat拼接


xxxxxxxxxx
8
1
import pandas as pd
2
import numpy as np
3
df1 = pd.DataFrame(np.ones((3,4))*0, columns=['a','b','c','d'])
4
df2 = pd.DataFrame(np.ones((3,4))*1, columns=['a','b','c','d'])
5
df3 = pd.DataFrame(np.ones((3,4))*2, columns=['a','b','c','d'])
6
print("拼接前：\n",df1,'\n',df2,'\n',df3)
7
res = pd.concat([df1, df2, df3], axis=0, ignore_index=True)
8
print("拼接后:\n",res)


xxxxxxxxxx
24
1
拼接前：
2
      a    b    c    d
3
0  0.0  0.0  0.0  0.0
4
1  0.0  0.0  0.0  0.0
5
2  0.0  0.0  0.0  0.0 
6
      a    b    c    d
7
0  1.0  1.0  1.0  1.0
8
1  1.0  1.0  1.0  1.0
9
2  1.0  1.0  1.0  1.0 
10
      a    b    c    d
11
0  2.0  2.0  2.0  2.0
12
1  2.0  2.0  2.0  2.0
13
2  2.0  2.0  2.0  2.0
14
拼接后:
15
      a    b    c    d
16
0  0.0  0.0  0.0  0.0
17
1  0.0  0.0  0.0  0.0
18
2  0.0  0.0  0.0  0.0
19
3  1.0  1.0  1.0  1.0
20
4  1.0  1.0  1.0  1.0
21
5  1.0  1.0  1.0  1.0
22
6  2.0  2.0  2.0  2.0
23
7  2.0  2.0  2.0  2.0
24
8  2.0  2.0  2.0  2.0

如果不写ignore_index=True,即默认ignore_index=False, 拼接的结果为


xxxxxxxxxx
10
1
      a    b    c    d
2
0  0.0  0.0  0.0  0.0
3
1  0.0  0.0  0.0  0.0
4
2  0.0  0.0  0.0  0.0
5
0  1.0  1.0  1.0  1.0
6
1  1.0  1.0  1.0  1.0
7
2  1.0  1.0  1.0  1.0
8
0  2.0  2.0  2.0  2.0
9
1  2.0  2.0  2.0  2.0
10
2  2.0  2.0  2.0  2.0

拼接表头不同的列

如果拼接表头不同的列,如下例子所示

axis=0时对列操作,在列的方向上拼接;axis=1时对行操作,在行的方向上拼接

join=outer时,会去除因为拼接错位而产生的含有NaN的行/列


xxxxxxxxxx
14
1
import pandas as pd
2
import numpy as np
3
df1 = pd.DataFrame(np.ones((3,4))*0, columns=['a','b','c','d'], index=[1,2,3])
4
df2 = pd.DataFrame(np.ones((3,4))*1, columns=['b','c','d', 'e'], index=[2,3,4])
5
print("df1:\n",df1)
6
print("df2:\n",df2)
7
res = pd.concat([df1, df2], axis=1, join='outer')
8
print("axis=1, join='outer'\n",res)
9
res = pd.concat([df1, df2], axis=1, join='inner')
10
print("axis=1, join='inner'\n",res)
11
res = pd.concat([df1, df2], axis=0, join='outer')
12
print("axis=0, join='outer'\n",res)
13
res = pd.concat([df1, df2], axis=0, join='inner')
14
print("axis=0, join='inner'\n",res)


xxxxxxxxxx
36
1
df1:
2
      a    b    c    d
3
1  0.0  0.0  0.0  0.0
4
2  0.0  0.0  0.0  0.0
5
3  0.0  0.0  0.0  0.0
6
df2:
7
      b    c    d    e
8
2  1.0  1.0  1.0  1.0
9
3  1.0  1.0  1.0  1.0
10
4  1.0  1.0  1.0  1.0
11
axis=1, join='outer'
12
      a    b    c    d    b    c    d    e
13
1  0.0  0.0  0.0  0.0  NaN  NaN  NaN  NaN
14
2  0.0  0.0  0.0  0.0  1.0  1.0  1.0  1.0
15
3  0.0  0.0  0.0  0.0  1.0  1.0  1.0  1.0
16
4  NaN  NaN  NaN  NaN  1.0  1.0  1.0  1.0
17
axis=1, join='inner'
18
      a    b    c    d    b    c    d    e
19
2  0.0  0.0  0.0  0.0  1.0  1.0  1.0  1.0
20
3  0.0  0.0  0.0  0.0  1.0  1.0  1.0  1.0
21
axis=0, join='outer'
22
      a    b    c    d    e
23
1  0.0  0.0  0.0  0.0  NaN
24
2  0.0  0.0  0.0  0.0  NaN
25
3  0.0  0.0  0.0  0.0  NaN
26
2  NaN  1.0  1.0  1.0  1.0
27
3  NaN  1.0  1.0  1.0  1.0
28
4  NaN  1.0  1.0  1.0  1.0
29
axis=0, join='inner'
30
      b    c    d
31
1  0.0  0.0  0.0
32
2  0.0  0.0  0.0
33
3  0.0  0.0  0.0
34
2  1.0  1.0  1.0
35
3  1.0  1.0  1.0
36
4  1.0  1.0  1.0

merge拼接


xxxxxxxxxx
12
1
import pandas as pd
2
import numpy as np
3
left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
4
                                  'A': ['A0', 'A1', 'A2', 'A3'],
5
                                  'B': ['B0', 'B1', 'B2', 'B3']})
6
right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
7
                                    'C': ['C0', 'C1', 'C2', 'C3'],
8
                                    'D': ['D0', 'D1', 'D2', 'D3']})
9
print("left:\n",left)
10
print("right:\n",right)
11
res=pd.merge(left,right,on='key')  # 按照key列合并
12
print("res:\n",res)


xxxxxxxxxx
18
1
left:
2
   key   A   B
3
0  K0  A0  B0
4
1  K1  A1  B1
5
2  K2  A2  B2
6
3  K3  A3  B3
7
right:
8
   key   C   D
9
0  K0  C0  D0
10
1  K1  C1  D1
11
2  K2  C2  D2
12
3  K3  C3  D3
13
res:
14
   key   A   B   C   D
15
0  K0  A0  B0  C0  D0
16
1  K1  A1  B1  C1  D1
17
2  K2  A2  B2  C2  D2
18
3  K3  A3  B3  C3  D3

考虑多个key

how = ['left', 'right', 'outer', 'inner']

inner:必须所有key相同才保留

outer:不要求所有key相同,可能会产生含有NaN的行

left和right是使用到的两组数据名,可以以被选择的数据作为模板进行合并


xxxxxxxxxx
18
1
import pandas as pd
2
import numpy as np
3
# consider two keys
4
left = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
5
                             'key2': ['K0', 'K1', 'K0', 'K1'],
6
                             'A': ['A0', 'A1', 'A2', 'A3'],
7
                             'B': ['B0', 'B1', 'B2', 'B3']})
8
right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
9
                              'key2': ['K0', 'K0', 'K0', 'K0'],
10
                              'C': ['C0', 'C1', 'C2', 'C3'],
11
                              'D': ['D0', 'D1', 'D2', 'D3']})
12
print("left:\n",left)
13
print("right:\n",right)
14
res = pd.merge(left, right, on=['key1', 'key2'], how='inner')  # default for how='inner'
15
# how = ['left', 'right', 'outer', 'inner']
16
print("res:\n",res)
17
res = pd.merge(left, right, on=['key1', 'key2'], how='left')
18
print("res:\n",res)


xxxxxxxxxx
24
1
left:
2
   key1 key2   A   B
3
0   K0   K0  A0  B0
4
1   K0   K1  A1  B1
5
2   K1   K0  A2  B2
6
3   K2   K1  A3  B3
7
right:
8
   key1 key2   C   D
9
0   K0   K0  C0  D0
10
1   K1   K0  C1  D1
11
2   K1   K0  C2  D2
12
3   K2   K0  C3  D3
13
res:
14
   key1 key2   A   B   C   D
15
0   K0   K0  A0  B0  C0  D0
16
1   K1   K0  A2  B2  C1  D1
17
2   K1   K0  A2  B2  C2  D2
18
res:
19
   key1 key2   A   B    C    D
20
0   K0   K0  A0  B0   C0   D0
21
1   K0   K1  A1  B1  NaN  NaN
22
2   K1   K0  A2  B2   C1   D1
23
3   K1   K0  A2  B2   C2   D2
24
4   K2   K1  A3  B3  NaN  NaN

使用indicator


xxxxxxxxxx
12
1
import pandas as pd
2
import numpy as np
3
# indicator
4
df1 = pd.DataFrame({'col1':[0,1], 'col_left':['a','b']})
5
df2 = pd.DataFrame({'col1':[1,2,2],'col_right':[2,2,2]})
6
print("df1\n",df1)
7
print("df2\n",df2)
8
res = pd.merge(df1, df2, on='col1', how='outer', indicator=True)
9
print("res:\n",res)
10
# give the indicator a custom name(自定义名字)
11
res = pd.merge(df1, df2, on='col1', how='outer', indicator='indicator_column')
12
print("res:\n",res)


xxxxxxxxxx
21
1
df1
2
    col1 col_left
3
0     0        a
4
1     1        b
5
df2
6
    col1  col_right
7
0     1          2
8
1     2          2
9
2     2          2
10
res:
11
    col1 col_left  col_right      _merge
12
0     0        a        NaN   left_only
13
1     1        b        2.0        both
14
2     2      NaN        2.0  right_only
15
3     2      NaN        2.0  right_only
16
res:
17
    col1 col_left  col_right indicator_column
18
0     0        a        NaN        left_only
19
1     1        b        2.0             both
20
2     2      NaN        2.0       right_only
21
3     2      NaN        2.0       right_only

left_index和right_index合并

合并行index


xxxxxxxxxx
16
1
import pandas as pd
2
import numpy as np
3
# merged by index
4
lef = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
5
                                  'B': ['B0', 'B1', 'B2']},
6
                   index=['K0', 'K1', 'K2'])
7
righ = pd.DataFrame({'C': ['C0', 'C2', 'C3'],
8
                                     'D': ['D0', 'D2', 'D3']},
9
                    index=['K0', 'K2', 'K3'])
10
print(lef)
11
print(righ)
12
# left_index and right_index
13
res = pd.merge(lef, righ, left_index=True, right_index=True, how='outer')
14
print("res:\n",res)
15
res = pd.merge(lef, righ, left_index=True, right_index=True, how='inner')
16
print("res:\n",res)


xxxxxxxxxx
18
1
     A   B
2
K0  A0  B0
3
K1  A1  B1
4
K2  A2  B2
5
     C   D
6
K0  C0  D0
7
K2  C2  D2
8
K3  C3  D3
9
res:
10
       A    B    C    D
11
K0   A0   B0   C0   D0
12
K1   A1   B1  NaN  NaN
13
K2   A2   B2   C2   D2
14
K3  NaN  NaN   C3   D3
15
res:
16
      A   B   C   D
17
K0  A0  B0  C0  D0
18
K2  A2  B2  C2  D2

suffixes处理会重复的列


xxxxxxxxxx
7
1
import pandas as pd
2
import numpy as np
3
# handle overlapping
4
boys = pd.DataFrame({'k': ['K0', 'K1', 'K2'], 'age': [1, 2, 3]})
5
girls = pd.DataFrame({'k': ['K0', 'K0', 'K3'], 'age': [4, 5, 6]})
6
res = pd.merge(boys, girls, on='k', suffixes=['_boy', '_girl'], how='inner')
7
print(res)


xxxxxxxxxx
3
1
    k  age_boy  age_girl
2
0  K0        1         4
3
1  K0        1         5