喜欢音乐的朋友,一定经常使用百度的“MP3搜索”。确实,百度的“MP3搜索”给我们带来很多的便利。新生力网络营销团队成员之一兔子宝贝,一直在观察互联网搜索引挚。同时,今天我又百度了一下“百度MP3搜索原理”,发现有很少朋友观注这一方面。经过思考、观察、实践,今天写下《兔子宝贝:揭密百度MP3搜索原理》一文,希望和大家交流。合理使用“MP3搜索”,带来流量是可行的。同时,兔子宝贝提醒的是此篇文章,只代表个人观点,文明评论,请勿唾骂,抛砖引玉。
百度的“MP3搜索”可以实现多种格式的搜索,不仅局限地MP3格式,“百度MP3”只是一种对音乐格式文件搜索的一种代名词。可以实现搜索MP3 、 MP2 、 MOD 、WAV 、 VOC、 wma 等音频格式。这些是能够实现的,经常笔者的实践过。下面,笔者分析一下,百度是如何实现MP3的搜索的呢?我会以实际的例子举例说明这一问题。
在百度的“MP3搜索”中输入“朋友”如下图所示:
经过习惯的思维,百度在抓取音乐时,有关键词,经过兔子宝贝的100次反复实验,在百度搜索时,并未出来这一规律。换句话说,百度的“MP3搜索”结果与网页附近的词语(包括名词、形容词、动词等)不存在任何关系。即不存在正向、逆向、统计等匹配情况。据此,如果像正常网页和图片一样的优化方法,在百度MP3中并不好使。
为了细心,测试了100首音乐,在试听的时候,并没有一首与主题不符的音乐。这说明,百度的“MP3搜索”的正确率不说100%,应该正确率非常高,至少兔子宝贝并没有发现出错。如果,不是根据网页内容附近的词进行识别,那么,按照常理,就是按照音乐的名字进行识别。比如,你搜索“朋友”,百度就返回以文件名中出现“朋友”二字的音乐文件,如:朋友.mp3,朋友.wma,朋友的心.mp3,朋友的心.wma。越靠近关键词越靠前,权重越高越靠前。但是,这种思维,经过多次实验,得到否定。下面,兔子宝贝以图为证。
首先观察百度MP3搜索的多路资源来路图:
观察资源来路有四处。观察文件名并不是以“朋友”为关键词中心出现文件名。下面再观察播放音乐时,资源来路图,再次证明。
播放时,资源视图:
播放时,文件名不是以“朋友”为关键词中心出现文件名。下面再观察点击音乐下载,资源来路图。
观察,在下载的时候,文件名不是以“朋友”为关键词中心出现文件名。 这样一来,更加否认我们刚开始的猜想,以文件名做为搜索的依据,因为文件名不是以歌曲名做为文件名。
经过以前多次实践分析出:百度MP3搜索结果并没有出错,准确率很高。不是依靠网页内容等进搜索。不是依靠文件名进行识别。
当然百度这种搜索技术,是机密性的。经过思考和从信号处理角度讲的话,分析百度的“MP3搜索”是如何操作的。步骤如下:
第一步:人工进行音乐选取。选择出正确的音乐,做为原始资料。注意,这是人工处理。这种选取地不一定,不一定在互联网上选取。
第二步:人工提取到原始的音乐资料进行计算数字化处理,进行数字化,采样,量化。对音乐信号进行频谱分析,取样,量化。做为百度搜索的最根本的依据。
第三步:百度使用蜘蛛程序,对互联网上的音乐进行抓取。
第四步:抓取回音乐后,利用程序对音乐进行数字化处理,采样,量化,包括对频域和时域名的分析,处理。
第五步:比对。百度利用原始资源去比对取后音乐的信息。两者信息越近,两者音乐越靠近,达到一定程序就是相同音乐。
第六步:找到相同音乐,百度很聪明。涉及到版权问题,百度并不保存音乐,只是保存音乐路径。因此,网友在百度搜索时,就能搜索不同路径,和用户相同要求的音乐。
综上所述,我只是想出了思路。具体怎么处理,是相当复杂。
因此,给做音乐资源网的朋友几条优化建议。
一、音乐网站要像一般网站一样优化。因为用户搜索音乐,不仅依靠百度的“MP3搜索”。更多的是利用百度的“网页搜索”。
二、音乐资源不能做假。如果与实际不相符的音乐,百度会自动识别。百度的识别技术很先进。
三、在百度的“MP3搜索”排名是和网站的权重,链接速度等有关。
四、合理使用“MP3搜索”带来流量。
以上就是兔子宝贝对百度“MP3搜索”的想法。以上只代表个人观点,不做为任何依据。文明评论,请勿唾骂。
原文地址:http://www.tuzibaobei.net/post/17.html (原创文章,站长站首发,欢迎转载,保留版权!)
文章评论 本文章有个评论