Python 字符串
1.字符串基本操作
1.1字符串的基本特点
字符串的本质是:字符序列。Python 的字符串是不可变的,我们无法对原字符串做任何修改。但,可以将字符串的一部分复制到新创建的字符串,达到“看起来修改”的效果。
Python 不支持单字符类型,单字符也是作为一个字符串使用的。
1.2字符串的编码
Python3 直接支持 Unicode,可以表示世界上任何书面语言的字符。Python3 的字符默认就是 16 位 Unicode 编码,ASCII 码是 Unicode 编码的子集。
使用内置函数 ord()可以把字符转换成对应的 Unicode 码;
使用内置函数 chr()可以把十进制数字转换成对应的字符。
>>> ord('A')
65
>>> ord('高')
39640
>>> chr(66)
'B'
>>> ord('淇')
28103
1.3字符串的创建
我们可以通过单引号或双引号创建字符串。例如:a=’abc’; b=”sxt”使用两种引号的好处是可以创建本身就包含引号的字符串,而不用使用转义字符。例如:
>>> a = "I'm a teacher!"
>>> print(a)
I'm a teacher!
>>> b = 'my_name is "TOM"'
>>> print(b)
my_name is "TOM"
连续三个单引号或三个双引号,可以帮助我们创建多行字符串。例如:
>>> resume = ''' name="gaoqi"
company="sxt" age=18
lover="Tom"'''
>>> print(resume)
name="gaoqi"
company="sxt" age=18
lover="Tom"
1.4空字符串和len()函数
Python 允许空字符串的存在,不包含任何字符且长度为 0。例如:
>>> c = ''
>>> len(c)
0
len()用于计算字符串含有多少字符。例如:
>>> d = 'abc 天青色'
>>> len(d)
6
1.5转义字符
我们可以使用“+特殊字符”,实现某些难以用字符表示的效果。比如:换行等。常见的转义字符有这些:
1.6字符串拼接
可以使用+将多个字符串拼接起来。例如:’aa’+ ’bb’ >’aabb’。
(1) 如果+两边都是字符串,则拼接。
(2) 如果+两边都是数字,则加法运算。
(3) 如果+两边类型不同,则抛出异常。
可以将多个字面字符串直接放到一起实现拼接。例如:’aa’’bb’>’aabb’
1.7字符串复制
使用*可以实现字符串复制。
>>> a = 'Sxt'*3
>>> a
'SxtSxtSxt'
1.8不换行打印
调用 print 时,会自动打印一个换行符。有时,我们不想换行,不想自动添加换行符。我们可以自己通过参数 end = “任意字符串”。实现末尾添加任何内容:
print("sxt",end=' ')
print("sxt",end='##')
print("sxt")
sxt sxt##sxt
1.9str()实现数字转型字符串
str()可以帮助我们将其他数据类型转换为字符串。例如:
str(5.20) ==‘5.20’ , str(True) ==> ‘True’
1.10使用[]提取字符
字符串的本质就是字符序列,我们可以通过在字符串后面添加[],在[]里面指定偏移量,可以提取该位置的单个字符。
正向搜索:
最左侧第一个字符,偏移量是 0,第二个偏移量是 1,以此类推。到len(str)-1
为止。
反向搜索:
最右侧第一个字符,偏移量是-1,倒数第二个偏移量是-2,以此类推,直到-len(str)为止。
>>> a = 'abcdefghijklmnopqrstuvwxyz'
>>> a
'abcdefghijklmnopqrstuvwxyz'
>>> a[0]
'a'
>>> a[3]
'd'
>>> a[26-1]
'z'
>>> a[-1]
'z'
1.11replace()实现字符串替换
字符串不可改变。但是,确实有时候需要替换某些字符。这时,只能通过创建新的字符串来实现。
>>> a = 'abcdefghijklmnopqrstuvwxyz'
>>> a
'abcdefghijklmnopqrstuvwxyz'
>>> a = a.replace('c','高')
'ab 高 defghijklmnopqrstuvwxyz'
整个过程中,实际上我们是创建了新的字符串对象,并指向了变量 a,而不是修改了以前的字符串。 内存图如下:
1.12字符串切片 slice 操作
切片 slice 操作可以让我们快速的提取子字符串。标准格式为:
[起始偏移量 start:终止偏移量 end:步长 step]
(1)典型操作(三个量为正数的情况)如下:
(2)其他操作(三个量为负数)的情况:
切片操作时,起始偏移量和终止偏移量不在[0,字符串长度-1]这个范围,也不会报错。起始偏移量小于 0 则会当做 0,终止偏移量大于“长度-1”会被当成-1。例如:
>>> "abcdefg"[3:50]
'defg'
1.13split()分割和 join()合并
split()可以基于指定分隔符将字符串分隔成多个子字符串(存储到列表中)。如果不指定分隔符,则默认使用空白字符(换行符/空格/制表符)。示例代码如下:
>>> a = "to be or not to be"
>>> a.split()
['to', 'be', 'or', 'not', 'to', 'be']
>>> a.split('be')
['to ', ' or not to ', '']
join()的作用和 split()作用刚好相反,用于将一系列子字符串连接起来。示例代码如下:
>>> a = ['sxt','sxt100','sxt200']
>>> '*'.join(a)
'sxt*sxt100*sxt200'
拼接字符串要点:
使用字符串拼接符+,会生成新的字符串对象,因此不推荐使用+来拼接字符串。推荐使用 join 函数,因为 join 函数在拼接字符串之前会计算所有字符串的长度,然后逐一拷贝,仅新建一次对象。
1.14字符串驻留机制和字符串比较
字符串驻留:仅保存一份相同且不可变字符串的方法,不同的值被存放在字符串驻留池中。
Python 支持字符串驻留机制,对于符合标识符规则的字符串(仅包含下划线(_)、字母和数字)会启用字符串驻留机制驻留机制。
>>> a = "abd_33"
>>> b = "abd_33"
>>> a is b
True
>>> c = "dd#"
>>> d = "dd#"
>>> c is d
False
>>> str1 = "aa"
>>> str2 = "bb"
>>> str1+str2 is "aabb"
>False
>>> str1+str2 == "aabb"
True
2.字符串常用方法汇总
2.1常用查找方法
2.2去除首尾信息
可以通过 strip()去除字符串首尾指定信息。通过 lstrip()去除字符串左边指定信息,rstrip()去除字符串右边指定信息。
>>> "*s*x*t*".strip("*")
's*x*t'
>>> "*s*x*t*".lstrip("*")
's*x*t*'
>>> "*s*x*t*".rstrip("*")
'*s*x*t'
>>> " sxt ".strip()
'sxt'
2.3大小写转换
设定一个测试变量:
a = “gaoqi love programming, love SXT”
2.4格式排版
center()、ljust()、rjust()这三个函数用于对字符串实现排版。示例如下:
>>> a="SXT"
>>> a.center(10,"*")
'***SXT****'
>>> a.center(10)
' SXT '
>>> a.ljust(10,"*")
'SXT*******'
2.5其他方法
str.isalnum() 是否为字母或数字
str.isalpha() 检测字符串是否只由字母组成(含汉字)。
str.isdigit() 检测字符串是否只由数字组成。
str.isspace() 检测是否为空白符
str.isupper() 是否为大写字母
str.islower() 是否为小写字母
三.思考与总结
在 Python 编程领域中,字符串作为最基础且高频使用的数据类型,其特性与操作方法贯穿于程序开发的各个环节。深入理解并熟练运用字符串相关知识,不仅能够提升代码编写的效率,还能确保程序在数据处理与展示方面的准确性。
从字符串的本质来看,其不可变特性是需要着重把握的关键。这意味着在实际开发中,任何看似对字符串的修改操作,底层都是通过创建新的字符串对象来完成的。例如使用replace方法替换字符,或通过切片操作获取子字符串,均会产生新的内存空间。这种机制在保证数据一致性和安全性的同时,也提醒开发者在频繁修改字符串的场景下,要注意性能问题,尽量采用高效的操作方式,如使用join方法拼接字符串,避免因大量创建临时对象而导致内存占用过高。
在字符串的编码方面,Python3 对 Unicode 的原生支持,极大地拓宽了字符串所能表达的范围,使得处理多语言文本变得更加轻松。ord和chr函数作为字符与编码之间转换的桥梁,在涉及字符编码处理、加密解密等场景中发挥着重要作用。开发者需牢记不同字符编码的特性,以避免因编码不一致而引发的乱码等问题。
字符串的各种操作方法和格式化功能为数据处理和展示提供了丰富的手段。查找、替换、分割、合并等方法,在文本解析、数据清洗等任务中不可或缺;而格式化功能则能让输出结果更加规范、美观,提升用户体验。例如在日志记录、报表生成等场景中,合理运用字符串格式化,可以使信息呈现更加清晰易读。
此外,字符串驻留机制和比较操作的细节也值得深入思考。is和==的区别,以及字符串驻留的触发条件,直接影响到程序中对象比较的逻辑正确性。在编写涉及字符串比较的代码时,必须明确是需要比较对象的身份(内存地址)还是内容,以避免因混淆而导致的逻辑错误。
总体而言,Python 字符串的相关知识看似基础,但在实际应用中却蕴含着诸多细节与技巧。只有深入理解其原理,并通过大量实践积累经验,才能在编程过程中灵活运用,编写出高效、健壮的代码。同时,随着技术的不断发展和新需求的出现,持续关注字符串操作的优化方法和应用场景,将有助于开发者不断提升自身的编程能力。