新闻动态

【科普】简述搜索引擎概念及工作原理

seo靠我 2024-02-25 04:33:10
【科普】简述搜索引擎概念及工作原理插图

任何曾经在网上查找过任何东西的人都可能想知道搜索引擎是如何发挥其魔力的,以及它们如何始终设法提供我们正在寻找的东西。

搜索引擎在很大程度上决定了网站的成功,因此也决定了整个在线业务的成功。如果您在搜索引擎结果页面 (SERP)上不可见(或排名靠后),那么您的网站流量肯定会受到影响。而较低的流量意味着更少的利润。

搜索引擎优化是一个完全致力于了解搜索引擎运作方式的领域。这种理解使我们能够改进我们的网站,优化它们的内容,加强它们的技术方面,并提高它们在搜索引擎中的排名。所有这些最终目标都是在搜索引擎结果页面 (SERP) 上尽可能高。

因此,至少对搜索引擎是什么以及它们如何工作有一个基本的了解是至关重要的,这正是我们将在本文中介绍的内容。什么是搜索引擎?搜索引擎市场占有率搜索引擎做什么?重要的百度算法更新

什么是搜索引擎?

互联网搜索引擎是专门设计用于搜索万维网上大量数据的复杂软件系统。他们通过提供包含我们搜索的特定单词或短语的最相关网站的列表来帮助我们(他们的用户)了解我们需要了解的内容。

对于我们大多数人来说,搜索引擎是基本的网络工具。如果没有它们,我们将不得不记住我们想要访问的每个网站或页面的确切 URL。虽然这对大多数人来说似乎是不可思议的,但实际上曾经有一段时间互联网就是这样运作的。

幸运的是,事情发生了变化。今天,我们已经习惯了搜索引擎的便利,很难想象没有它们的生活。

搜索引擎市场占有率

【科普】简述搜索引擎概念及工作原理插图1

2022年3月中国搜索引擎市场份额:

1、百度,55.92%

2、必应,17.96%

3、搜狗,14.02%

4、谷歌,7.23%

5、好搜,4.45%

6、神马搜索 1.33%

对于国内大多数人来说,搜索引擎 = 百度。毕竟,它是国内使用最广泛的搜索引擎,而且已经有很长一段时间了。百度在我们的生活中无处不在,它甚至成为了在互联网上搜索东西的动词:“百度一下,你就知道!”

因此,在大多数情况下,当我们谈论搜索引擎时,我们实际上是在谈论百度,而不是 sogou,bing!或者360。更不用说已经退出中国市场的Google。所以,所有 SEO 努力都针对 百度。

现在,这并不是说您不应该关注其他搜索引擎。但对于初学者来说,确保百度排名靠前对您至关重要。

搜索引擎做什么?

【科普】简述搜索引擎概念及工作原理插图2

搜索引擎执行三个基本操作:它们对网站进行爬网、索引和排名。

您可能听说过人们谈论与搜索引擎相关的蜘蛛、蜘蛛机器人或爬虫。这些奇怪的术语只是搜索引擎用来发现新网站和网页的特殊软件的名称。

爬虫,顾名思义,通过使用超链接从一个网页跳转到另一个网页来抓取网络。一旦他们找到一个新页面,这些勤奋的小机器人就会在数据库中索引它。

当您在搜索某些内容时,搜索引擎会查询其索引页面数据库,并根据您的查询为您提供最相关的内容。这就是排名的全部意义——按照与查询相关的顺序显示页面。

现在让我们仔细看看每个主要的搜索引擎功能:

爬行

正如我们之前看到的,抓取是让您的网站显示在 SERP 上的第一步。自然,您希望排名尽可能高,稍后我们将看看您如何实现这一目标。但是现在,让我们看看如何确保爬虫真正看到您的页面,将它们抓取并将它们添加到索引中。

虽然抓取是一个自动过程,但网站仅抓取部分(而非全部)页面的情况并不少见。

确保正确的页面被抓取

在 SEO 中,有一个叫做“抓取预算”的东西。它是指爬虫在离开网站之前抓取的平均页面数。因此,如果您的网站上有 50 个页面,并且抓取预算为 30,您希望确保爬虫抓取所有正确的页面,而不会将时间浪费在不太重要的页面上。

这就是robots.txt的用武之地。网站管理员使用这个方便的小文本文件来告诉爬虫要爬取哪些页面以及如何爬取它们。通过使用允许和禁止指令,网站管理员可以准确定义某些爬虫可以看到哪些页面(或整个文件夹)。

某些类型的页面绝对不应该被抓取。例如,您不希望搜索引擎将您网站上的admin页面或包含成员列表或其他敏感数据的任何页面编入索引。在这种情况下,您肯定希望从搜索引擎中隐藏这样的页面或帖子,以免被抓取。爬虫程序应将哪些页面视为“不重要”通常取决于您网站的特定性质和目的。

除了定义明确的 robots.txt 文件外,您还应该确保您的网站导航和架构能够让爬虫正常工作。

因此您需要检查:整个网站的 HTML 导航清晰明了您的内容组织和标记得当您有一个站点地图爬虫没有遇到错误(客户端错误、服务器错误、重定向错误)。

索引

在搜索引擎爬虫发现您的网页后,就该编制索引了。这基本上意味着所有抓取的页面(连同它们的所有信息)都将存储在一个庞大的数据库中,以后可以从中检索它们并显示为搜索结果。

重新索引

请务必注意,仅让搜索引擎索引您的网页一次是不够的。您的页面也需要定期重新索引。这是因为您很可能会向您的网站添加新页面,或更新现有页面的内容。这些变化也需要被抓取和索引,这就是为什么你需要爬虫经常访问(和索引)你的网站。

大型、完善的网站经常被索引,但全新的网站有时需要等待一段时间才能让爬虫回来。

影响网站被索引的速度和频率的一些因素包括:领域权威(DA)——网站在其特定领域的相关性页面权限 (PA) – 类似于 DA,页面级别内容时间或更新频率人气

删除的页面

还值得一提的是,有时可以从索引中删除页面。

发生这种情况的原因之一是:链接返回错误该页面包含一个 noindex 标签该 URL 已被处罚或阻止。

如果您希望在删除页面后重新索引,您可以手动将其提交给搜索引擎,稍后会详细介绍。

元指令

类似于我们之前讨论的关于抓取的指令(允许和禁止),您可以使用 robots.txt 元指令告诉搜索引擎如何索引您的页面:

index/noindex告诉搜索引擎您是否希望对特定页面进行索引和存储当您希望或不希望爬虫跟踪某个链接时使用follow/nofollownoarchive告诉引擎不要保留页面的缓存版本,它主要用于经常更改内容的页面

向搜索引擎提交内容

正如我们之前提到的,如果您觉得百度对您的网页的索引速度不够快,您可以手动提交您的网页和内容以进行索引。

百度为此提供了一个工具,称为百度搜索资源平台。您可以使用此工具要求百度返回并重新抓取您的所有页面,以防您添加了一些您希望尽快被抓取的新内容。

排行

搜索引擎排名表示URL 在 SERP 上的位置。显然,位置越高越好,因为用户更有可能点击首页上排名靠前的链接。

在百度的第一页上获得高位是每个网站的最终目标,但说起来容易做起来难。

在我们研究影响排名的一些因素之前,让我们首先看看搜索引擎是如何知道哪些结果与搜索者的查询相关的。

搜索引擎使用算法来确定网站在排名中的相关性和位置。可以这么说,根据页面受欢迎程度对页面进行排名最早是在 1990 年代后期设计的,当时谷歌的联合创始人拉里·佩奇和谢尔盖·布林提出了PageRank,这是一个根据指向的链接数量确定页面价值的公式给它。

PageRank 作为一种工具最终被放弃了。

在 SEO 动态和复杂的环境中,很难确定哪些特定因素可以保证 SERP 的高位置。

这意味着您不能只做一次性的 SEO 工作并收工。您需要按照百度想要的方式返回、调整、修复和改进。

影响排名的因素

它们大致可以分为页内因素和页外因素。顾名思义,页面因素是与您正在优化的特定页面相关的 SEO 因素。由于所有页面因素都在您的网站上,因此您可以完全控制它们。另一方面,页外因素是其他网站上存在但会影响您网站页面排名的因素。

让我们仔细看看这两个类别。页面因素包括:优质内容。这意味着与主题相关的内容。如果可能的话,它应该写得很好并且格式很长。标题标签。标题标签是一个 HTML 元素,代表页面标题和 SERP 上列出的可点击标题。标题标签应准确描述其链接的内容。根据最佳 SEO 实践,标题标签的长度应在 50 到 60 个字符之间。它们的结构应该由主要关键字+次要关键字|品牌名称组成。元描述标签。这些是 SERP 标题标签下方显示的页面的简要摘要。百度正在不断改变元描述的首选长度,但通常在 150 个字符左右。网址结构。对 SEO 友好的 URL 应该简短、简洁,单词用连字符分隔。关键字密度。这表示您使用关键字或关键词的次数与内容中的总字数相比。理想情况下,它应该在 0.5% 和 3% 之间。XML 站点地图。站点地图是您站点上所有 URL 的列表。它作为搜索引擎爬虫的路线图。替代标签。也称为 alt 属性或 alt 描述,alt 标签是添加到图像的 HTML 属性,目的是为搜索引擎提供该图像的文本描述。内部链接。这是在您的页面上添加指向同一网站上其他页面的链接的做法。标题标签(H1 到 H6)。这些 HTML 标记用于识别标题和副标题。它们帮助搜索引擎阅读和理解您的页面,并改善用户体验。页外因素包括:链接建设。让其他网站链接反向链接您的网站的过程。最好的反向链接来自符合 EAT 标准的网站:专家、权威和值得信赖。在自然上下文中正确放置链接并带有足够的锚文本也很重要。社交媒体市场营销。在社交媒体上分享的内容可以显着提高页面排名,因为分享内容会被索引,建立权威。影响者营销。这是一种营销形式,在这种营销形式中,您将特别关注在您所在行业具有良好声誉和大量关注的人。在适当的情况下,它可以为网站的排名创造奇迹。视频。在过去的几年里,视频内容对于 SEO 变得尤为重要。它(例如好看视频或哔哩哔哩的视频等)增加流量并产生社交分享以及反向链接。

用户参与度和排名

用户参与度是提高网站搜索引擎排名的一个特别重要的因素。

它代表您网站的用户行为。您的访问者在寻找什么,他们停留了多长时间,他们跳过了哪些页面,他们点击了哪些页面,他们立即离开了哪些页面——所有这些指标都应该被考虑在内。

基本上,您想知道访问者如何与您的网站互动,然后尽一切可能改善他们的体验。更好的用户体验意味着更好的用户参与度,而这反过来又反映了更好的排名。这对于获得大量流量但没有转化的网站尤其重要。

某些因素对排名有直接影响:打开速度页面浏览量(会话期间点击和查看的页面数)跳出率(导航到网站并在仅查看一页后离开的用户数)品牌提及(您的品牌在网上被提及的实例)移动响应式设计(因为如果您的网站没有响应,您的跳出率将会非常高)技术 SEO(因为它对于良好的用户体验至关重要)。

此外,您应该密切关注某些参与度指标:

点击链接访问深度表单提交。

当然,这些只是有助于搜索引擎排名的一些参与因素和指标。这是一个非常复杂的 SEO 领域,需要特别注意,并将在以后的文章中更深入地介绍。

重要的百度算法更新

我们已经提到搜索引擎,尤其是百度,使用极其复杂的排名算法。而且这些算法更新非常频繁。其中大部分是对算法的微小修改,因此对网站管理员来说几乎没有问题。但有时,在了解搜索引擎的工作原理以及他们想从我们这里得到什么时,百度会推出重大更新,这些更新会严重改变游戏规则。

这些是您应该了解的最重要的算法更新:

百度搜索算法规范详解

搜索算法是保障搜索安全与内容质量的重要防线。百度搜索资源平台也将搜索算法进行梳理及更新,汇编为《百度搜索算法规范详解》,系统化地阐明了搜索优化过程中不允许发生的违规问题、需规避的运营“雷点”,助力开发者更好地提升自身资源质量。

总结

既然我们已经详细介绍了搜索引擎的大部分基本功能以及它们的工作方式,您应该对如何优化您的网站以使其表现良好并排名靠前有了更清晰的认识。

请记住这些简单的规则:

1.并非所有搜索引擎都是相同的。

2.首先针对百度进行优化,但不要忘记其余部分。

3.密切关注重要的算法更新。

4.保持警惕,永不停止优化。

祝你好运!
“SEO靠我”的新闻页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与 我们联系删除或处理,客服邮箱:html5sh@163.com,稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同 其观点或证实其内容的真实性。

网站备案号:浙ICP备17034767号-2