4 探究Presto SQL引擎-统计计数 _生活百科

作者：vivo互联网用户运营开发团队 - Shuai Guangying

本篇文章介绍了统计计数的基本原理以及Presto的实现思路，精确统计和近似统计的细节及各种优缺点，并给出了统计计数在具体业务使用的建议。

系列文章：

探究Presto SQL引擎(1)-巧用Antlr
探究Presto SQL引擎(2)-浅析Join
探究Presto SQL引擎(3)-代码生成

一、背景学习Hadoop时接触的第一个样例就是word count ，即统计文本中词的数量。各种BI、营销产品中不可或缺的模块就是统计报表。在常见的搜索分页模块，也需要提供总记录数。
统计在SQL引擎中可谓最基础、最核心的能力之一。可能由于它太基础了，就像排序一样，我们常常会忽视它背后的原理。通常的计数是非常简单的，例如统计文本行数在linux系统上一个wc命令就搞定了。
除了通常的计数，统计不重复元素个数的需求也非常常见，这种统计称为基数统计。对于Presto这种分布式SQL引擎，计数的实现原理值得深入研究，特别是基数统计。关于普通计数和基数计数，最典型的例子莫过于PV/UV 。
二、基数统计主要算法在SQL语法里面，基数统计对应到count(distinct field)或者aprox_distinct() 。通常做精确计数统计需要用到Set这种数据结构。通过Set不仅可以获得数量信息，还能不重不漏地获取每一个元素。
Set内部有两种实现实现原理：Hash和Tree 。
在海量数据的前提下， Hash和Tree有一个致命的问题：内存消耗，而且随着数据量级的增长，内存消耗也是线性增长。
面对Set内存消耗的问题，通常有两种思路：