优化思路:搜索引擎算法之复制网页
搜索引擎判断复制网页一般都基于这么一个思想:
为每个网页计算出一组信息指纹(Fingerprint),若两个网页有一定数量
