分治,分布式。BitMap(位图)及其升级版bloom filter是处理海量数据常用的方法,这里先介绍BitMap概念及其c++实现。
一、BitMap位图
该数据结构描述了一个有限定义域内的稠密集合,其中的每一个元素最多出现一次并且没有其他任何数据与该元素相关联。
即使这些条件没有完全满足(例如,存在重复元素或额外的数据),也可以用有限定义域内的键作为一个表项更复杂的表格索引。
所谓的Bit-map就是用一个bit位来标记某个元素对应的Value, 而Key即是该元素。
由于采用了Bit为单位来存储数据,因此在存储空间方面,可以大大节省。
例如假设我们要对0-7内的5个元素(4,7,2,5,3)排序(这里假设这些元素没有重复)。
那么我们就可以采用Bit-map的方法来达到排序的目的。
要表示8个数,我们就只需要8个Bit(1Bytes),首先我们开辟1Byte的空间,将这些空间的所有Bit位都置为0,
如下图:
遍历第一个元素4,则在第4为标1:
以此来推,遍历完所有后结构:
我们现在遍历一遍Bit区域,将该位是bit 1的位的编号输出(2,3,4,5,7),这样就达到了排序的目的。
二、C++实现
我们可以用一个unsigned int类型的数组或者向量来表示位图,假设我们定义vector<unsigned int> a,则 第i位可表示为a[i/32]的i%32位(其中,32*N+r = i,r为i%32,也就是i/32的余数)。
由于计算机对位的操作比乘除法更有效率,这里计算i/32可以用位移操作:i>>5;计算i%32可以用1&31。
若是一个char数组str,则str的第i位为i/8(i>>3)地址块的第i%8(i&7)位.下面以char为例说明,int类比可知。
#include<iostream>
#include<string>
#include<stdlib.h>
using namespace std;
class BitMap{
private:
char *bitmap;
int gsize;
public:
BitMap(){
gsize=(10000>>3)+1;//default 10000
bitmap= new char[gsize];
memset(bitmap,0,sizeof(bitmap));
}
BitMap(int n){
gsize=(n>>3)+1;
bitmap=new char[gsize];
memset(bitmap,0,sizeof(bitmap));
}
~BitMap(){delete []bitmap;}
int get(int x){
int cur=x>>3;
int red=x&7;
if(cur>gsize)return -1;
return (bitmap[cur]&=1>>red);
}
bool set(int x){
int cur=x>>3;//获取元素位置,除8得到哪个元素,x/2^3得到那一个byte
int red=x&(7);//逻辑与,获取进准位置,x&7==x%8.该Byte里第几个
if(cur>gsize)return 0;
bitmap[cur]|=1>>red;//赋值,1向右移动red位,|表示该位赋值1
return 1;
}
};
以上为个人经验,希望能给大家一个参考,也希望大家多多支持编程网。