在当下的互联网环境中,无论你想打开Google搜索什么,占据你第一个搜索结果的往往不是你想要的答案,而是”小XXX网“,进入网站后,70%以上的版面被广告所充斥,只有不到30%的版面内写着低质量的内容。

什么是内容农场

在维基百科上有关于内容农场的词条

内容农场(英文:content farm)是指为了牟取广告费等商业利益或出于控制舆论、带风向等特殊目的,快速生产大量网络文章来吸引流量的网站。此类网站通常找不到作者、管理者、网站负责人,也不会主动管理产出的内容,对侵权或错误内容投诉的处理也很消极。其产出内容多半都是缺乏原创性且真实性无法保证的内容,且有极高比例是盗用、盗译自他人的原创图文,或由非专业写手胡乱拼凑网络文章而来,因而多半缺乏可靠来源、质量低劣、不具参考价值、传播误导讯息,也经常掺杂大量广告或恶意程序。

在搜索引擎中,这些网站压倒了知乎,CSDN,Bilibili等老牌网站,尽管上述网站的权重或者流量都压倒性的多余这些农场,但是内容农场们用极高的更新速度欺骗了搜索引擎进行索引,并且可以坐收其成,接入一个CPM广告平台,凭借从搜索引擎里引来的廉价流量就可以得到一笔不菲的收入。

image378b1d799439029e.png
image378b1d799439029e.png

为什么搜索引擎会被骗

这里引用一篇知乎回答 浅谈Google蜘蛛抓取的工作原理

所有页面都可用于爬行吗?

不。某些页面可能无法用于爬行和索引。让我们仔细看看这些类型的页面:

  • 受密码保护的页面。Googlebot 模拟了匿名用户的行为,该用户没有任何凭据访问受保护的页面。因此,如果页面受到密码保护,它不会被爬行,因为 Googlebot 将无法访问它。,
  • 索引说明排除的页面。这些页面来自Robots.txt,带有Noindex标签、robots元标签和X-Robots标签。
  • 孤儿页面。孤儿页面是网站中任何其他页面中未链接的页面。Googlebot是一个蜘蛛机器人,这意味着它通过跟踪它找到的所有链接来发现新的页面。如果没有指向页面的链接,则页面将不会被爬行,也不会在搜索中出现。

有些页面被限制故意爬行和索引。这些通常是不打算在搜索中显示的页面:具有个人数据、策略、使用条款、页面测试版本、存档页面、内部搜索结果页面等的页面。

但是,如果您想让您的页面可供爬行并带来流量,请确保您不会保护带有密码、思维链接(内部和外部)的公共页面,并仔细检查索引说明。

抓取预算分配取决于以下因素:

  • 网站人气。网站越受欢迎,谷歌在爬行上愿意花费的爬行点就越多。
  • 更新速率。更新页面的频率越高,您的网站获得的爬行资源就越多。
  • 页数。页面越多,爬行预算就越大。
  • 处理爬行的服务器容量。托管服务器必须能够按时响应爬行器的请求。

请注意,爬行预算并非均等地用于每个页面,因为某些页面会消耗更多资源(因为 JavaScript 和 CSS 过重,或者因为 HTML 杂乱无章)。因此,分配的爬行预算可能不足以像您预期的那样快速爬行所有页面。

除了严重的代码问题外,爬行不良和非理性爬行预算支出的一些最常见的原因是重复内容问题和结构不良的 URL。

而回看这些内容农场,大多数会有大量的内链,几乎没有孤儿页面,且有着常人无法达到的更新速率,这提高了Googlebot对他的权重,而用户访问只需要载入网页就可以发现它的实质就是垃圾桶。

「内容农场」 如何毒害互联网

对于创作者

内容创作者们热心撰写文章,却被此类垃圾网站占据本应属于前者的搜索结果位置。创造价值的创作者无法得到应有的报酬,而此类内容农场的经营者却赚的盆满钵满,此类网站对于侵权的处理态度一向暧昧,创作者也无法为自己的内容遭到盗用维权。

对于访问者

此类内容农场大多有着明确的采集方向,比如技术类、养生类文章。如果恰好你的搜索词对上了内容农场的采集方向,比如技术类,则会有半页以上的无用内容,严重干扰了用户应有的访问体验。而对于那些「面向Stackoverflow编程」 的新手,无暇在搜索结果中甄别此类网站,直接进入排名靠前的结果,反而为农场主提供了利益,因为CPM广告的特性,只要你浏览到了广告且是广告的受众群体,就会给农场主计费,而这份广告费是内容创作者所应得的。

对于互联网

不只是中文互联网,世界互联网都在遭受着内容农场的狂轰滥炸。绝对的利润可以令人不惜犯罪,而此类网站运营的成本相对于它的利润来说微乎其微,所以,内容农场一个又一个的出现,毒害互联网,又有一个一个人了解到他的利润,加入内容农场主的行列,如此往复。

尾声

如果放任此类内容农场发展,虽然作为个人可以通过AdBlock规则减少搜索结果中的无用内容,对于我们也许只是浪费时间了,但是对于现在的10后呢,一篇低质量的文章可能会严重的干扰他们的三观,更有甚者可能因为此类文章走得更偏,更远。

题外话

已经有半年多没有更新文章了,,,这次属实拖得有点久,虽然有很多点子有了草稿但是想不到如何下手。

下一篇可能会更新关于IoT的文章(大概