0%

从海量数据中找出不重复的数和出现次数最多的数的解决方案,分别采用了分治法+HashMap和位图法Bitmap两种方法。其中,位图法在大数据量下处理速度更快,内存占用更小。而对于其他类似问题,可以尝试使用分治法加最小堆/最大堆的方式处理。

阅读全文 »

降低数据存储消耗并提高处理效率,本文教你如何通过优化数值类型、object类型和 datetime类型三个方面来减少内存使用量。其中,使用 Categoricals优化 object类型数据是效果最显著的一种优化方式。另外,还介绍了如何在读取数据的时候就完成优化步骤,避免加载完数据再做优化的麻烦。

阅读全文 »

理解Python中的GIL(Global Interpreter Lock),以及如何使用多线程和多进程,以及弱引用。

阅读全文 »