一、基数估计探秘***Linear***Counting与Flajolet***Martin算法
看官可以先拿出大学《概率论与数理统计》教材翻一翻,反正我是复习过才写的(逃
什么是基数?
一个(有限)集合S里不同的元素个数就称为该集合的基数(cardinality),也叫做“势”,记为|S|。例如,S={"西红柿","土豆","胡萝卜","土豆","洋葱","西红柿"},那么|S|=4。
在我们的日常工作中,经常碰到需要统计基数的情境。最常见的就是日活跃用户数(daily active users, DAU)。比如,在一天内登录某App的独立访客(unique visitor, UV)总数,或者在一天内进入到某商品详情页面的UV总数等等。DAU是衡量互联网产品活跃度最直接的指标,少不了要与它们打交道。如果只考虑最naive的基数统计手段,很简单:
上面的两个方法都是精确统计,在数据量适中时常用。但是在海量数据面前,它们的空间(内存)占用和时间效率都会变得不可控。用大数据的思维来考虑,我们是否可以稍微牺牲一点准确率,换来效率的大幅提升呢?答案自然是肯定的,基数估计(cardinality estimation)已经有了多种成熟的实现,应用比较广泛的就是HyperLogLog,熟悉Redis的看官肯定已经见怪不怪了。不过,本文研究的是它的父辈们,即两种早期的基数估计算法——Linear Counting算法与Flajolet-Martin算法。
Linear Counting(线性计数)算法由Kyu-Young Whang等人在1990年的论文《A Linear-Time Probabilistic Counting Algorithm for Database Applications》中提出。它不是最早的基数估计算法,但它的思路比较直接,并且不涉及什么高深的东西,所以我可以尽量叙述得详细一点。
算法流程如下,不难理解。
下图是论文中给出的哈希过程示例。
由于H按每bit分了m个桶,并且n个哈希结果服从均匀分布,可得:
空桶数u是个随机变量,我们就可以计算出它的期望:
当n和m都趋向无穷大时,可得:
即得出这种情况下,基数n与m、E(u)的关系:
因为每个bit的值都服从0-1分布,故u服从二项分布。又因为n和m都趋向无穷大,所以u渐近地服从正态分布,即:
对正态分布而言,μ的最大似然估计(MLE)是样本均值,其证明过程可以参考这里。
而u正是从正态分布总体中随机抽取的样本,故u就是E(u)的MLE。
根据MLE的不变性,因为函数f(x)=-m· ln(x/m)可逆,即得出基数n的MLE:
算法得证。
由于计算过程太长,所以直接给出论文中的结论:
可见,Bias指估计值与精确值的期望相对偏差,StdError指“标准误差”,即n的估计值与精确值的比值的标准差。
如果我们限定标准误差,即StdError<ε,容易推导出位数组长度m要满足以下条件:
但这样还不够。由上面的算法证明过程可知,一旦u=0(就是所有桶都满了),算法就失效了,因此我们还得保证在t<1的情况下,u=0的概率足够小,可以控制空桶数u的期望E(u)与其标准差SD(u)之间满足如下关系:
当n、m趋向无穷大时,又可以推导出标准差(计算过程略去):
解得:
也就是说,m最终要满足:
在上一节中,我们已经说过u渐近地服从正态分布,这是二项分布逼近连续型的情况。如果仍然考虑离散型,那么在u~B(n,p)的n较大而p较小时,u就会近似服从泊松分布:
当k=0时,就是位数组被填满的概率,即e-λ。
现在我们给α赋一个值,论文中是√5。又因为泊松分布的期望和方差都是λ,易得:
也就是说,就算不考虑ε,我们只要保证u的期望值偏离标准差的√5倍以上,就可以保证算法失效的概率低于0.7%了。文中提供了在α=√5且ε=0.01或0.10的情况下,随着n增大的m取值表。
由上一节的表中可以看出,当n达到比较大的规模时,Linear Counting算法的空间复杂度为O(n/C),C是个常数。以n=10 8为例,位数组的大小不到10 7 bit(1MB多点),相当于只占用了原生位数组方法的1/12。如果想要计算两个集合的并集的基数,只需要O(1)的按位或就可以,简单方便。
但是,这个算法只能保证空间占用有常数级别的降低,因此仍然主要用于小数据量的场景,仍然不适用于大数据。下面我们来看更“聪明”一些的Flajolet-Martin算法。
这个算法由Philippe Flajolet和G.Nigel Martin在1984年的论文《Probabilistic Counting Algorithms for Data Base Applications》中提出,因此得名,并且是基数估计算法真正的始祖。它的论文就比较难啃了,我毕竟不是数学系毕业的,所以数学方面的细节会写得粗糙一点,但保证贴合原文的思路。
定义哈希函数:
该函数能够保证哈希结果尽量服从均匀分布。换句话说,H(x)的哈希结果空间为长度固定L的二进制串的集合。
对任意一个非负整数y,将y的二进制表示中第k(k≥0)个bit的值记为bit(y,k),那么可得:
然后,定义ρ(y),代表y的二进制表示中,从末尾开始出现的第一个1(least significant set bit)的位置,即:
也就是说,y的二进制表示的低位有连续ρ(y)个0。
Flajolet-Martin算法的流程如下:
是不是感觉有些云里雾里的?下面来简单证明一下它。
如果bitmap[j]=1,就表示M中有一个值经过哈希后,其二进制串末尾有连续j个0。由于H(x)的结果尽量符合均匀分布,所以哈希结果二进制串中的每个比特都服从0-1分布且相互独立。
若我们将二进制串视为抛硬币的结果,0代表反面,1代表正面,那么很显然,“从二进制串的末尾开始扫描1”就相当于“连续抛硬币直到出现正面为止”。进一步说,它是个参数为p=1/2的伯努利实验。我们可以得出:
记集合的基数|M|为n,易得:
也就是说,如果j>>log 2 n,那么bitmap[j]=0的概率极大;反过来,如果j<<log 2 n,那么bitmap[j]=1的概率极大。参考算法流程中R的定义,它其实就是所有哈希结果中最大的ρ(y),因此它可以代替前述的j值,使得2 R成为基数n的一个粗糙的估计量。
φ≈0.77351是经过复杂的计算得出的修正因子,就不提了。
在H(x)保证均匀分布的情况下,可以得出结论:
又因为估计值是2的整数次幂,显然它是非常不精确的。论文中提出了一个解决方案,叫做PCSA(Probabilistic counting with stochastic averaging),即“基于离散平均值的概率性计数”。思路如下:
将原始算法中的bitmap扩展为m个组,每次哈希时,以H(x) mod m为组编号,在每组中再用floor[H(x)/ m]的方法确定下标。这样每个组都会有n/m个元素,并且计算出的R值就不再是一个,而是m个。n的估计量就可以表示为:
详细的伪码描述如下。
论文中还给出了m的取值与偏差值和标准误差的对应关系表。
除PCSA的思路之外,也有其他方法,比如采用多个哈希函数,或者用中位数来代替均值。当然我们很容易想明白,多个哈希函数的方法并不现实,因为设计多个均匀分布并且尽量少冲突的哈希函数很难,并且计算哈希值也是需要耗费CPU的。
PCSA方法的偏差与标准误差的计算极其复杂,论文中靠计算机得出了近似值:
可见都只与m的选择有关。如果m> 256,标准误差会缩小到5%以内。
位数组长度L的理想取值范围为:
当m=64时,若L=16,可估算的基数可达十万数量级;若L=24,可估算的基数可达千万数量级。
二、什么叫IDEN
数字集群通信iDEN系统(郑祖辉)在ITU推荐的几种数字集群系统中,有三种是备受我国关注的,它们是iDEN、TETRA和FHMA,但目前我国只有iDEN系统有实物可供使用和参观,这就是福建省集群无线电话公司运营的iDEN网。 iDEN(integrated Digital Enhancde Network)是一个共用频率、作指挥、调度用的专用数字集群通信系统。它采用时分多址(TDMA)技术、当代最新的VSELP(Vcetor Sum Excited Linear Prediction)矢量和激励的线性预测编码技术和抗干扰能力强的 M-16QAM(Quadrature Amplitude Modeulation)正交振幅调制技术,并采用了和GSM系统相同的双工通话结构以及特殊的频率复用方式。使系统具有低功率、大容量、广域覆盖的特性。iDEN数字集群通信系统可以提供指挥调度、双工互联、数据及短消息等服务功能。它的指挥调度通信和分组数据交换功能加上和GSM系统相同的无线电话通信使得系统的功能比较完善,也是对个人移动通信的有利补充,数字集群通信与模拟集群相比性能更可靠,覆盖更广阔,业务更多样,特别对传输数据更有利,费用更低廉,保密性更强。它不仅方便、快捷,可实现一对一的私密通话,也可实现在一个群组中各种方式的通信。iDEN系统工作在800MHz频段,它刚好符合我国无委会规定的数字集群通信频段。在福建省的我国第一个数字集群通信网是在1994年由珠海新银河国际电子有限公司就和美国摩托罗拉公司共同投资近3亿元人民币组建起来的,这个网采用了摩托罗拉公司研制、生产的iDEN数字集群通信系统,效果不错。福建省集群无线电话公司组建和运营iDEN系统实际上也是受了美国发展数字集群通信共网的影响,美国在组建数字集群通信共网方面是做得是较早和较好的,如美国的NE XTEL公司采用iDEN系统在美国全国组建和运营的共网已超过450万用户。由于共网在共用频率、共用信道、共享覆盖区、共用通信业务等方面是很好的,因此它特别适合在一个地区(如一个省、一个流域等)建立一个大型网络,主要是提供各种集团用户(当然也可以为单个用户)使用。于1998年建成了从福州厦门到漳州一线iDEN数字集群通信网,该网已经原邮电部和国家无委会的同意作为一个特批的试验网于1999年正式进行商业运营。目前用户数虽还不是非常多,但用户群涉及到政府机关、公安、交警、城管、军队、武警部队、抢险救灾、医疗救护、商业金融、安全保卫、交通运输、港口航空、宾馆服务、建筑领域。下面介绍一个福建省的iDEN数字集群通信网的概况。福建iDEN数字集群通信网是一个集群共网,第一阶段共建了32个基站(已建30个),已开通福州经厦门到漳州一线沿海经济地区,在福州设一个5万门的交换机,是按调度 4.5万、电话2万用户设计。目前已经开通并投入运营。随着用户的不断增加,二期工程将逐步向内陆扩展,并将完成整个福建省各主要地区的工程建设,最终将与摩托罗拉公司在其它省、市、地区的iDEN数字集群通信系统合作建立跨省的网络,以实现较大范围的覆盖。由于到1997年7月整个系统才初具规模,而到1998年底系统才逐步完善,因此在这近一年时间里,集群无线电话公司发展了一些试用用户,让用户在不断的试用中发现和及时修正系统、设备和无线覆盖等方面出现的问题,因此得到了试用客户的理解和好评。对于前期试用客户的选择,公司采取筛先方式,挑选出一些经济实力雄厚,有影响力的行业代表企业作为第一批试用客户,借助于他们的试用,在本行业中起到很好的宣传作用。同时在客户在试用过程中,又进行了多次的使用调查,发现和归纳总结出一些问题,并采取了积极的改进措施,使出现的问题随着工程的建设及网络的不断优化而逐步的相应解决。另外,集群无线电话公司在网络试运营和正式运营期间都曾为福建省和福州市举办的几次大型会议和活动期间提供过一些手机作为会议的指挥、调度工具,每次都受到好评,认为iDEN系统在指挥、调度方面的效果很好,用户的费用也很低,同时它的双工互联通话也十分方便,因此,很受用户特别是集团用户的欢迎。所以,集群无线电话公司也确定该网的用户主要定位于集团用户。福建iDEN系统最初是以TDMA6时隙(6:1)的形式工作的,当然,这就可以使系统具有更魇容量。但在对用户的调查中发现,大部分用户对话音质量都提出了不同的意见,为满足用户对通话质量的要求,经过多次的大规模测试,公司已将由原来的6时隙(6:1)改为现在的3时隙(3:1)。当然改为3时隙后,用户量肯定会相应减少,但在本网中暂时还不会受到影响。而从计算机得出这时的话音编码速率已从4.2kb/s提高到10kb/s左右了。有关专家和人士认为TDMA6时隙话音质量与GSM相当,它的主观评定打分(MOS)为3.5左右,而在3时隙时,MOS已可达到4.5左右,与CDMAIS-95系统的庆音质量相当。公司最初向用户提供给的试用手机是摩托罗拉公司当时给美国用户普遍使用的B- 70型手机。用户普遍认为提供的手机偏大、较重,而且电池的使用时间也短,希望使用小型的手机。后来很快就提供了现在已普遍使用的较小的1000型手机,这种手机既轻、又小,而且电池待机时间最长可达75小时。摩托罗拉公司已宣布这种新的1000型第四代手机裸机已降到400美元以下,2000年有望降以300美元,而与GSM兼容的第五代双频手机和具有分组数据传输功能的第六代手机都将于2000年推出。他们的具体收费情况为: A、月基本通话费:单调度30元/部、月;电话加调度为50元/部、月。 B、(1)资费单位为15秒1次,不足15秒按15秒计;(2)私密通话双向收费,组呼通话被叫不收费;(3)跨区话费包括长途调度费(按双工长话费的50%计)和长途附加费(按现行规定执行);(4)实行本区调度通话费最高限额120元/月/部(不含月基本费),通话费低于120元/月/部,按实际费用收取。 C、电话费用:与福州市电信局移动电话收费标准相同。随着移动通信业务的不断增长,移动数据业务的需求将越来越大,数字集群通信正好能满足这一需求,因此相信它将会更好地服务于社会,并为增强集团用户自我发展能力,实现良性循环增添一份力量。
三、什么是GP和LP
GP即普通合伙人(General Partrer),LP即有限合伙人(Limited partrer)。普通合伙人对合伙企业的债务承担无限连带责任,有限合伙人应以其认缴的出资额为标准承担债务责任。
在合伙企业中,普通合伙人一般是管理投资者钱的人,也可以自己投资,自己管理。有限合伙人是指出钱投资的人,一般不参与管理。在债务责任承担方面,普通合伙人承担的责任要比有限合伙人大,普通合伙人是承担无限连带责任的,有限合伙人只在自己投资的限额内承担责任。
有限合伙人可以以货币、实物、知识产权、土地使用权或其他财产权作为出资额,但是不能以劳务出资。有限合伙人可以根据合伙协议转让其在有限合伙企业中的财产份额,但要提前30天通知其他合伙人。
拓展资料
普通合伙人对基金事务拥有全面的管理和控制权,并有权代表合伙基金签署法律文件,根据规定,普通合伙人投资该基金总资本的1%左右,即可享有该基金投资收益20%左右的分成。当然,分成基数通常是扣除本金和利息成本后的余额,有时还会扣除基准收益,并按基金全部投资项目的组合计算收益。
普通合伙人泛指股权投资基金的管理机构或自然人,英文简称为GP。普通合伙人对合伙企业债务承担无限连带责任,有限合伙人以其认缴的出资额为限对合伙企业债务承担责任。
有限合伙人,即参与投资的企业或金融保险机构等机构投资人和个人投资人,或经其他合伙人一致同意依法转为有限合伙人的,被依法认定为无民事行为能力人或者限制民事行为能力人的合伙人。这些人只承担有限责任。
有限合伙企业由普通合伙人和有限合伙人组成,普通合伙人对合伙企业债务承担无限连带责任,有限合伙人以其认缴的出资额为限对合伙企业债务承担责任。
有限合伙人不执行合伙事务,不得对外代表有限合伙企业
本站所有软件信息均由用户上传发布,版权归原著所有。如有侵权/违规内容,敬请来信告知邮箱:764327034@qq.com,我们将及时撤销! 转载请注明出处:https://czxurui.com/jys/155495.html
发表回复
评论列表(0条)