用 Python 排序数据的多种方法

【Python HOWTOs系列】排序

技术分享

Python 列表有内置就地排序的方法 list.sort()，此外还有一个内置的 sorted() 函数将一个可迭代对象(iterable)排序为一个新的有序列表。

本文我们将去探索用 Python 做数据排序的多种方法。

排序基础

简单的升序排序非常容易：只需调用 sorted() 函数，就得到一个有序的新列表：

技术分享

你也可以使用 list.sort() 方法，此方法为就地排序(并且返回 None 来避免混淆)。通常来说这不如 sorted() 方便——但是当你不需要保留原始列表的时候，这种方式略高效一些。

技术分享

另外一个区别是 list.sort() 方法只可以供列表使用，而 sorted() 函数可以接受任意可迭代对象(iterable)。

技术分享

Key 函数

list.sort() 和 sorted() 都有一个 key 参数，用于指定在作比较之前，调用何种函数对列表元素进行处理。 For example, here’s a case-insensitive string comparison: 例如，忽略大小写的字符串比较：

技术分享

key 参数的值应该是一个函数，该函数接收一个参数，并且返回一个 key 为排序时所用。这种方法速度很快，因为每个输入项仅调用一次 key 函数。

一种常见模式是使用对象的下标作为 key 来排序复杂对象。例如：

技术分享

同样的技巧也可以用在带有命名属性(named attributes)的对象上。例如：

技术分享

上述的 key 函数模式是非常常见的，所以 Python 提供了一些更简单快速的访问属性的函数。operator 模块有 itemgetter()、attrgetter() 和 methodcaller() 函数。 Using those functions, the above examples become simpler and faster: 使用这些函数，可以使上述的示例更加简洁高效：

技术分享

operator 模块方法允许多级排序。例如，可以先按 grade 排序，然后再按 age 排序：

技术分享

list.sort() 和 sorted() 都有布尔型的 reverse 参数，用来指定是否降序。例如，按 age 的降序来对学生数据进行排序：

技术分享

排序是保证为稳定的，也就是说，当多条记录拥有相同的 key 时，原始的顺序会被保留下来。

技术分享

注意到两条 blue 记录保持了原来的顺序，所以 (‘blue’, 1) 一定在 (‘blue’, 2) 之前。

这个非常棒的属性允许你通过一系列排序来进行复杂排序。例如，学生数据先按 grade 升序，然后按 age 降序，优先排序 age，然后再按 grade 排序：

技术分享

Python 使用的 Timsort 算法由于可以有效利用数据集中已有的顺序，因而可以高效地进行多级排序。

使用 Decorate-Sort-Undecorate 的旧方法

Decorate-Sort-Undecorate 的名称来源于这种方法的三个步骤：

第一步，初始的列表进行转换，获得用于排序的新值。
第二步，将转换为新值的列表进行排序。
最后，还原数据并得到一个排序后仅包含原始值的列表。

例如，使用 DSU(译注：Decorate-Sort-Undecorate的简写)方法，按 grade 来排序学生数据：

>>> decorated = [(student.grade, i, student) for i, student in enumerate(student_objects)]

>>> decorated.sort()

>>> [student for grade, i, student in decorated] # undecorate

[(‘john’, ‘A’, 15), (‘jane’, ‘B’, 12), (‘dave’, ‘B’, 10)]

这一方法利用了元组按字典序 (lexicographically) 比较的特性;先比较第一项;如果第一项相同，则比较第二项，以此类推。

在很多情况下是不需要在处理后的列表(decorated list)包含原始下标 i，但是包含原始下标有两个好处：

排序是稳定的——如果有两项有相同的 key，排序后的列表会保留他们的顺序。

原始项不需要是可比较的，因为处理后的元组最多使用前面两项就可以决定排序。例如，原始列表中包含无法直接比较的复数。

这个方法还有另外一个名字，是以 Randal L. Schwartz 的名字来命名的 Schwartzian 变换，因为他使得这个变换在 Perl 程序员中得以流行。

在 Python 排序提供 key 函数之后，这个技巧已经不常用了。

使用 cmp 参数的旧方法

本篇指南中给出的方法都假设 Python 2.4 或更新版本。在 2.4 之前，sorted() 和 list.sort() 是没有 key 参数的。但是，在所有的 Py2.x 版本都支持 cmp 参数来处理用户自定义排序函数。

在 Py3.0 中，cmp 参数已经被完全移除(作为简化和统一语言的一部分，去除排序和 cmp() 魔法方法之间的冲突)。

在 Py2.x 中，sort 允许传入一个可选函数，会在进行比较的时候调用。函数必须接受两个参数进行比较，然后返回负数表示小于，返回 0 表示相等，返回正数表示大于。例如，我们可以这样：

技术分享

或者你也可以反转比较顺序：

技术分享

当从 Python 2.x 移植代码到 3.x 时，可能会出现需要将用户提供的排序函数转换为 key 函数的情况。下面的包装器可以轻松做到：

技术分享

转换为 key 函数，仅需要包装旧的比较函数即可：

技术分享

在 Python 3.2 中，functools.cmp_to_key() 函数已经添加到标准库的 functools 模块中。

其他要点

针对时区相关排序，使用 locale.strxfrm() 作为 key 函数，或者使用 locale.strcoll() 作为比较函数。

reverse 参数仍然保持排序稳定性(以便相同 key 的项保留原顺序)。有趣的是，无需传入参数，通过两次调用内置的 reversed() 函数，可以模拟出相同的效果：

技术分享

在两个对象进行比较时，sort 使用的是 lt() 方法。所以，只需要为类添加 lt() 方法，就可以为类加入排序顺序：

技术分享

key 函数不需要直接依赖于排序的对象。key 函数可以访问外部资源。例如，如果学生的成绩保存在字典中，字典中的数据可以给单独的一个学生名字排序：

技术分享

英文出处：Andrew Dalke,Raymond Hettinger

文章来源36大数据，www.36dsj.com ，微信号dashuju36 ，36大数据是一个专注大数据创业、大数据技术与分析、大数据商业与应用的网站。分享大数据的干货教程和大数据应用案例，提供大数据分析工具和资料下载，解决大数据产业链上的创业、技术、分析、商业、应用等问题，为大数据产业链上的公司和数据行业从业人员提供支持与服务。