我们都知道搜索引擎会爬行和提取页面内容,但是究竟是怎么提取内容的呢,本文沐风SEO就通过案例简朴的给大家辩白下。假如你不知道搜索引擎是怎么提取内容的,看完本文相信就根本清晰了。
上面这个是页面源代码内容,可以看到有许多的内容,包括了英文字母和汉字文本。
这是前端,这里没有加更多的css样式,通常页面里面都会有许多的样式的,前端显示也会更好看。
那么对于这个页面,百度搜索是怎么提取内容的呢?简朴说有以下几个部门:
1、页面题目:水煮鱼的做法。 留心这里又会进行中文分词,会分成“水煮鱼”“做法”“水煮鱼做法”,分词和组合。 2、正文内容。百度搜索只提取有意义的词,过滤没有意义的词。 有意义的词:鱼鱼肉片鱼片盐淀粉大蒜干辣椒姜锅油姜蒜红辣椒火锅底料水黄豆芽蔬菜鱼片,可以看到,这些提取的词根本都是名词。 不经意义的词:比如首先下来和然后最后即可等等这些。 帮助性的词:比如处置干净抓匀切末烧热烧开自己喜欢腌制好等等。 可以看到,有意义的词是必不可少的,少了这些词页面内容就不完整了。但不经意义的词去掉以后并不会变更页面内容,而帮助性的词则是辅助用户更好浏览。在通过指纹计算相关性的时候,主要是参考和计算有意义的词。 上面内容显露频率高的词是:鱼、鱼片,它们的权重会更高,其他的词重要性会依据频率降低。 3、链接:a href=bau鱼肉片a,搜索引擎会把这个URL收集并返回到链接数据库,同时纪实下这个锚文本并且计算相应的权重值。 以上就是百度搜索提取页面内容的简朴过程和内容,这里大家可以拓展下,思索下文章内容的原创度。 百度搜索提取内容以后,会进行指纹处置,假如两篇文章的指纹特性高度雷同,就能根本判断后面收录的内容是采集的,或者是简朴伪原创的。所以,大家在编制伪原创文章的时候,就不能只是简朴的段落调整,或者简朴的加些链接词、口气词,这些都缺陷以提升原创度。 当然,百度搜索真正的提取任务要复杂得多,大家可以通过本文做个大概的了解。了解百度搜索提取页面内容的原理和过程,对于提升页面质量度有很大的辅助,比如把页面做成漂亮的图片,但只有很少的文本内容,这就不行!本文还可以辅助大家懂得外链、投票等,这里不展开细说。