当作为一般用户再使用搜索引擎的时候,很难去想象或者了解搜索引擎的工作原理是怎么样的?所以正是因为对搜索引擎的工作流程不是很了解,导致现在很多人都认为搜索引擎返回的结果是动态的结果,也就是当用户输入一个语句进行关键字查询的时候,搜索引擎马上从互联网上抓取筛选结果,然后把我们查询的关键字结果反馈给用户!其实搜索引擎返回的结果是提前就已经抓取,然后经过了一系列算法筛选之后,放入数据库,用户查询就立即对索引数据库进行查找,反馈用户准确的关键字查询结果!
那么搜索引擎是怎么抓取了我们网站把网站的title,URL,摘要,快照时间返回给我们的?还有就是搜索引擎是怎么爬取到我们的网站地址,他们怎么知道我们的网站?其实这个问题不难解决,搜索引擎在以某个URL开头的为种子然后跟着这个字母或者数字开头的抓取下去,不断的抓取URL存入数据库,然后把新的拿到数据库里面筛选出未抓取的,一直重复着这个行为,然后不断爬取新的URL!还有另外一种发现我们网站的方式,就是利用搜索引擎自己的网站提交端口,让我们把网站提交给搜索引擎,然后把用户提交的网站记录,使用爬虫程序抓取到我网站!
经过蜘蛛爬取到的大量的网页经过一些简单的算法把一些不友好的网页过滤了,然后进入第一次数据库里面也就是索引数据库里面,在这个里面搜索引擎经过算法控制判断过滤网页的重复内容,对网站内页进行一些简单的处理之后然把这些数据放入索引数据库里面!当用户触发一个行为的时候,通过检索的建立,然后进行数据库里面的查询返回用户结果,其实在第一次对数据进行入库之后,搜索引擎会把这些经过筛选的内容通过算法控制经过一系列的网页重要性的判断之后重新建立索引数据库保存,其实这个时候用户查看的结果就是经过一系列核心算法判断后的网页重要性比较高的排列结果!
搜索引擎再抓取网页的时候其实不能把所有的内容抓取,因为这个量是巨大,还有就是里面的内容可能是多个URL对应同一个内容,所以为了避免重复性,增加用户使用的友好性,搜索引擎会抓取认为重要的的网页进行入索引库,然后返回这个结果给用户!当然被抓取的页面会经过很多算法的控制,然后判断出重要性比较高的排在前面返回给用户!
其实当用户在查询某一个关键字的时候,搜索引擎就已经开始自动记录用户的行为了,比如说查询项,用户点击的URL,以及用户翻页等行为,然后为用户的行为创建一个数据日志来记录这些行为过程,这样可以跟踪用户行为和改善搜索引擎的服务质量,以这样来判断用户的行为趋向等等!这个就是搜索引擎简单的工作流程不知道阐述清楚不,其实就是几个过程,第一个就是搜集网页,查询数据,返回结果!所以希望这个简单的流程能对大家了解搜索引擎和SEO有一定的帮助!