4

百度搜索移动端流量词热度统计方法

 2 years ago
source link: https://zhuanlan.zhihu.com/p/379569019
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

百度搜索移动端流量词热度统计方法

前言

前段时间回家找我哥们泡茶,他是传统行业的,自己有一个小型加工厂,刚好在认证抖音小店,也就是抖店。

v2-ac82af4852efb91362a868c74fde7e24_720w.jpg

我对抖店不太了解,虽然挺久了但目前貌似还处于大量招商的阶段,我朋友刚开通后就连续几天接到官方各种对接电话。

很多平台都会有新鲜事物出现,在刚出现时往往伴随着机会。


最近一个月没有更新内容,有在交流群里聊过,是因为近期和朋友打算一起做个流量站。

在他所处的领域,他认为这个领域在搜索里还有一些较为可观的流量机会,又因为变现手段有现成的,我们陆续有聊过几次,目前在着手一些基本工作,所以事情比较多。

这个站点是纯粹的seo流量站,目前除了一个还算好看的域名,啥也没有,所以首要的是制定seo策略。

所谓的seo策略是指:

依据我们现有的条件、资源等,采取对我们较为合适的seo方案,它可以是资源导入、可以是内容制定、可以是流量挖掘,也可以是整合,但是最重要的是结合当下,策略没有固定的。

seo是灵活的,为了提升流量(seo的目标绝不是排名,很多人习惯性的本末倒置),我们会采取很多不同的方式方法,在接下来的时间里,我也可能会陆续更新一些seo相关的内容。

实际上随着搜索流量被不断分割,seo渐渐式微,但是我认为流量还是有的,要知道并不是什么内容都适合在抖音微信搜索。

比如我们想搜索一张原图,既然是图片,个性化APP的搜索引擎就满足不了了,比如我们要搜索一份文档,也必须是谷歌百度这类搜索引擎。

所以可以思考一下,还有哪些搜索需求是必须要在通用型搜索引擎里搜索的,在大片站长离开的现阶段,这就是流量机会。

问题

一个新领域、新名词、新产品、新渠道出现的时候,搜索词和对应的搜索量往往会爆发式增长,这个时候市场还没反应过来,竞争虽有但很小,存在空白。

是否有直观简单的方式可以看看存在什么等待被满足的需求?

职业自媒体团队都有自己挖掘热点的方式方法,可事实上市场经常存在一些关键词还搜索不到合适的内容。

是否可以大批量挖掘出来寻找合适的选题?这其实没有那么难,不需要复杂的算法策略。

移动搜索的流量非常大,竞争也很激烈,对于运作seo,如何挖掘到有搜索而低竞争甚至没竞争的流量词很关键。

正文

来看看我们今天的主角:

绝大部分搜索引擎都有相应的推荐版块,对于不是内部算法工程师的我们,不太能知道这些推荐具体基于什么逻辑。

但是站在常识的角度理解,搜索引擎的目的是解决绝大部分用户的搜索需求,快速链接人与信息,所以不难想象推荐出来的关键词除了基本的相关性以外应该是绝大部分人会搜索或搜索过的。

上图是百度移动端(http://m.baidu.com)的“大家还在搜”版块,位于搜索结果的中间位置,为什么选择移动端呢?

1:绝大部分用户是不能够准确描述自己的需求的

2:受限于手机环境,在手机使用搜索时大多数人不太愿意打太多字,相较于PC端,会更依赖于直接使用系统给与的推荐词。

PS:猜想一下“大家还在搜”、“其他人还在搜”等类似的版块为什么会放到搜索结果的中间范围呢?

一般情况下,搜索引擎top10的结果其实相差都不大,如果前面几条没能满足用户,那基本就可以明白该搜索词没有可以满足用户的,应该基于历史搜索记录给与推荐更合适的搜索词。


基于以上两点,试想这样一个场景:

用户不知道怎么更好的描述自己的搜索需求,又不太愿意打字,于是频繁使用系统给的推荐词,系统在这个过程中保存用户的搜索记录形成历史数据。

后期其他用户搜索的时候,系统基于过往的历史数据 推荐认为合适的搜索词,用户又继续使用系统推荐词,形成循环。

这样的情况下就会造成:

1:某些词会经常被推荐,也就是在搜索很多不同词的时候经常有它出现。

2:因为经常出现,它被用户点击的概率也越大,呈现出来的结果是这个词的流量也越大。

基于这样一个思路,我们就可以人工去计算一个领域的长尾词在被推荐时,谁的热度更高一些。

这个价值是很大的:首先移动端流量大这点毋庸置疑,其次在移动端 用户基于推荐点击,所以词的长度没有像PC那么敏感,有可能很长的词它的搜索量也很高,不会这么长尾。


下面来说一下计算逻辑:

首先选择一个行业主词,比如我前面提到的“抖店”,当然抖店是个简称,它的完整名称叫“抖音小店”,所以主词有两个。

将主词拿到百度移动端(http://m.baidu.com)里搜索,提取“大家还在搜”这个版块的所有关键词:

去除不包含“抖店”或“抖音小店”的关键词。

把得到的词记录下来,格式是:

左列是每次得到的新的推荐词,右列是指左列的词是由哪个词搜索而来的。

于此同时把新得到的推荐词加入搜索队列,挨个拿到搜索引擎里搜索 获得新词。

如此循环,直到不再看见没有搜索过的新词!


word表里的左列是允许重复的,另外再单独建一个表记录搜索过的长尾词记录即可,每个词只需要搜索一次就好。

最后我们就可以在word表里的左列得到所有采集到的长尾词,同时右列告诉我们左列每一个词是通过什么词搜索而来的:

再运用类似Excel的“数据透视”,我们就可以知道左列每一个词在数据里总共被多少个搜索词关联推荐,在上面这张图的例子里就是:

逻辑其实很简单,这是一种统计关键词搜索热度的思路,方法简单有效,立竿见影,参考性很强。

以下是我采集“抖店”的实际记录:

在采集的过程中我把记录存到了MongoDB数据库里,对于我们做营销的人来说,无论是采集数据还是建站,nosql型的MongoDB足够了,使用起来很香!

关键词总共才2000多条记录(不重复),我们要明白一点的是,使用这种方式是快速挖掘一些热门的有代表性的长尾需求,不是为了挖掘海量长尾词。

如果目标是直接从搜索引擎挖掘长尾词,在这里还应该组合另一种策略才能无穷无尽的挖掘更多长尾词,不会碰到采集队列枯竭的情况,这一种策略留着后续再聊。


我们把数据透视一下:

“word”就是我们挖掘到的所有词,“hot”就是我们通过数据透视计算出来的热度值。

“抖音小店处罚太严重”,这个词居然排第一,“177”是指我们拿去搜索的所有词当中,有177个词都能看到相关推荐里有“抖音小店处罚太严重”这个词。

其实对于职业的网赚团队,仅就上面这张图里的关键词,足够看到一两个商业机会了,比如上图中:

“抖音小店怎么人工shuang liang”

市场上有什么样的需求,自然会有相应的团队去满足,只要利润可观:

严重PS:以上只是为了讲述这个逻辑,并非推荐相关业务,事实上也不新鲜了,我们应该运用这些逻辑去经营一些正规业务,不做灰黑。


我们再来聊聊seo怎么运用类似的思路:

我们仍然按照上面同样的步骤抓取数据,在这个过程中顺带保存每个词的搜索结果自然排名数据,即TOP10的标题和链接(我们当然也可以额外再多采集几页数据保存作为后期参考),把它们单独存放在一个表:

ps:剧本杀是我在生财看到的一个行业,对于不玩游戏的我感觉很清奇,不知道具体干嘛的,这里只是随便选一个我不熟悉的做下演示,跑了十几万数据还在跑,需求类型还挺多。

有了每个词的搜索结果,我们再利用爱站或5118的百度权重查询接口:

两个接口都不错,第三方的数据永远不是真实数据,只不过每一家工具都有自己标准的排名计算逻辑,因此在同样的标准下不同排名的网站就会有不同的数据占比,我们要的只是相对差距,不是绝对值。

批量查询每一个链接对应主域名的权重预估值(把我们收集到的快照链接转为真实链接,再提取链接里的主域名,再把主域名提交给接口):

爱站会返回目标网站在百度PC端权重值、M端权重值、总预估流量、PC预估流量、M预估流量。

现在:我们有了每个词的预估热度、每个词搜索下去后排名在topN的网站的权重分布、每个网站的流量量级、每个链接是首页、内页、列表页还是内容页我们也很清楚(不同层级的页面竞争程度也不一样)、每个词搜索下去 搜索结果标题的匹配程度(分词匹配),是完整还是只是沾边。

有了以上这些数据作为参考,那么我们相对就很容易可以挑选出优质的流量词。

我们可以根据经验对每项指标设置一定阈值,对于有热度但竞争数据低于目标阈值的流量词,就是我们优先要做的长尾词。

有了这些长尾词,接下来就要考虑如何去生成对应的内容了,当数据量大的时候,规模效应就可以明显看到,这就是最基本的seo挖掘流量的方式。

对于没有直接数值的选项我们也要尽可能转化为数值做参考,比如标题的匹配程度我们可以统计完整匹配的占比等。


当然,实际的seo挖词场景远要复杂一些,首先挖词的渠道就要丰富很多,搜索也要制定相应策略,才有可能挖掘到更多长尾词。

其次作为参考的数据也要想办法尽可能找到更多数据项来辅助我们筛选,比如关键词的长度,当一个词是3-4个字的,基本就不太考虑,要嘛竞争很大,要嘛这种流量点击率差,要嘛转化差。

这些留着后续我们慢慢聊。

至于文章开头提到的问题:关于自媒体挖掘选题,其实只需要做一个很简单的标题匹配,当一个词搜索下去几乎找不到完整匹配、甚至沾边的都很少,那就说明市面上关于这方面的文章是很少的。

在大批量的查询之后,我们就可以获得大量的数据作为参考,之后再进一步研究是否有撰写的价值。

这个方式并非一定用在传统搜索引擎,很多自媒体平台的搜索也可以用这个逻辑。

延伸拓展

百度只是我比较喜欢举例的渠道,我们可以看到很多搜索引擎诸如“搜狗”、“360”、“神马”、“头条”、“知乎”等,都会有这些搜索结果中间推荐的版块。

挖掘商机也好、寻找流量也罢,渠道与渠道之间一定是会有信息差的,不同渠道的信息叠加组合还可以发现更多隐藏的信息。

当一个词在多个渠道的热度排名均比较高,而在某个渠道却没有太多热度,这就是一种值得进一步研究的现象。

题外话

上一篇关于抖音的文章貌似效果还不错,在各渠道的评论反馈都还OK,也收到多个转载申请。

前两天一位粉丝朋友告诉我说看了文章,调整了下内容策略,播放量就起来了,也很认同文章里关于“原创”的定义,我看了他的截图,飙到了几百万的播放。

当然,倒不是说我说的那些逻辑就这么立竿见影,特例也是存在的,我只是觉得我的一些经验看法或许是可以给一些朋友起到启发作用,哪怕换换思维也好。

所以后续可能也考虑新增一些文章类型,不单是单一的局限在一些领域或者偏技术相关(如果要写技术相关的其实我有很多可以写),甚至也会给一些刚入行的朋友聊一些比较浅显的内容。

大家也可以给我一些反馈,包括希望多聊聊的内容。

总而言之对互联网营销有帮助的知识、经验、技能,我们都可以在这个号里聊聊。

也感谢大家的支持!!!


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK