数据数字化

一个很凑巧的机会,很幸运听到了来自优酷高级架构师的一位老师的讲课。这位老师主要是搞搜索的,所以对海量数据处理很有发言权。我完全抱着学习的态度听老师讲解了处理大量数据的基本思路。
老师的案例是这么设计的。
从网上爬虫抓取期待数据,然后以文件的形式存在本地,然后去重复,最后存入本地数据库。
关于爬虫抓取数据,老师就讲了很多方法,但不是本文的重点,我就不赘述了。关键讲老师是如何处理抓取到本地的数据。
老师提供的思路:将从网络抓取回来的每条数据以文件的形式储存,但是需要经过MD5加密。经过MD5加密以后,就是唯一的,并且是不可逆的。(但是,我没有理解老师说的MD5加密,这个概念是和我们现在所说的一个文件的MD5值是不是一个概念,亦或者是对所抓取到的“数据”直接进行MD5加密。)其实,经过MD5加密以后,排除重复数据就比较容易实现了,因为抓取到的完全相同的数据经过加密后的哈希值是一摸一样的。这样一来,我们可以把对字符串的操作,转换为对数字的操作。明显,计算机对数字的处理,比字符串的处理速度高多了。

其实,老师这一个很简单的案例,讲出了现在发展的趋势或现状吧(我又泛泛空谈了)。切合身边利益的,电视从模拟信号变成数字信号;电冰箱从机械控温变成电脑数字控温...其实很早就提出数字化这个概念了。当然了,我从老师这个案例中,学到的是数据数字化这个基本技巧,通过MD5加密就可以实现。这个愚笨的我之前没有接触过的新的处理方式,特此记录一下。

添加新评论