我初学 python 的时候,对为什么要同时存在 python2 和 python3 感到非常疑惑,当时觉得,不就是print不一样吗?不就是在编码上有些不同吗?何必搞得这么分裂呢?
知乎上有个问答:Python 2 和 Python 3 有哪些主要区别? 看了一下,大部分回答都在罗列 “python2 和 python3 在语法和功能有哪些区别” 或者 “python3 相对 python2,做了哪些改进”。我不打算罗列这些 list,我尝试来回答这个问题:是什么原因,让 python 社区做出了非 python3 不可的决定?
0x01 几个重要的发展时间点
1968 ASCII标准发布
这个时期计算机几乎都是 8 bits 的
numeric values (0 – 127)和字符一一对应,比如字符 ‘a’ 对应的 numeric value 对应
ASCII只是针对美国人的,这意味着无法支持其他语言体系。
Guido 于 1989年开始开发 python 语言,于 1991 年二月份正式发布第一版
1991 年 8月份 unicode 标准发布
使用 16 bits,意味着能存放 65,536 个不同的字符
这也是目前使用最广泛的编码标准。
2004年 python 社区开始筹划 python3。
从这你就能看出关键的一点:python 正式发布的时候 unicode 标准还没有出现 ,python 在后面的发展过程中,的确加上了对 unicode 的支持,可这也只是一个可选的feature,不是强制性的!
0x02 python2 str 对象的不确定性
'abcd'
如果你是 python3 用户,你会说这是一个包含了”a”, “b”, “c”, 和 “d” 的字符串。
如果你是 python2 用户,你可能会说这是一个包含了”a”, “b”, “c”, 和 “d” 的字符串,也可能会说这是表示 97, 98, 99, 和 100 的 bytes。
这意味着你得足够细心,明确自己的 str 对象到底是文本还是 bytes ,不然就可能会在你的代码里面埋下 bug。
没错,只要你是一个足够细心,真正 “合格” 的程序员,这些问题都有解决方案。但是!这样的假设是不切实际的,程序员是人,是人就意味着一定会犯错!
0x03 哲学层面的考量
设计任何一个面向所有人的系统,原子层面的设计都要及其小心细致。
数据类型是一门编程语言最最最基础的构成,从哲学层面来讲,构建一座大厦的原子出现这种不确定性是让人无法接受的!
Python之蝉 里面有一句话:
There should be one— and preferably only one —obvious way to do it.
完成一件事,给开发者太多的选择并不就是好的,因为这可能会带来沟通成本、选择成本的增加,得不偿失。
python核心开发者 Brett Cannon 在他的一篇文章 Why Python 3 exists 中说:
And we made the change when we did because we figured the sooner the better.
the sooner the better ,一定要做的事越早越好。
不过他也说了,python2 到 python3 这样大的 “向后不兼容” 的改变之后应该都不会再发生了,因为这的确对开发者不友好。
0x04 总结一下
Python2 str 对象的模糊性,这种原子层面的模糊性是不可接受的。
Python2 unicode 只是可选项,不是必选项,可选意味着有人不选。Python3 开始默认支持 unicode。
the sooner the better ,必做的事尽早做。
本文链接:http://so.lmcjl.com/news/4097/