知乎蓝海2000W流量机会掘金指南获取知乎流量的正确姿势

显示全部楼层 · 2020-11-19 15:57:35

朋友你好，作者，5年个人站长，创业在路上，下面我用5000字的长文告诉你，获取知乎流量的正确姿势，思路+实操知行合一，纯正干货细节满满，请尽情享用

   根据我本地数据的不完全统计（知乎百度top3关键词）

   百度PC端关键词总流量为：1亿2743万

   知乎实际获取总流量为：1亿2743万x0.15（平均点击率）=1911万

   这只是单看PC端，一个超过2000W的流量机会摆在我们面前

   一切依靠互联网赚钱的前提，就是必须先获取流量，而现在流量比黄金还宝贵

   真实情况是，我身边已经有5+位的朋友，在近半年内，依靠此次机会获得了6W~25W不等的收益

   而我们只需要一双勤劳的双手和一个思维清晰的大脑

   那么

   为什么会有这个流量机会？

   流量机会具体指的是什么？

   我们如何从中获取流量？

   下面，让我来为你打开这扇流量的大门

   阅读指导：不同于市面上的各种“爽文”，本文按照我的实际思路，使用了正叙的方式讲述如何“从0到1”，需要朋友一边阅读一边思考，建议拿出一整块的时间（10-20分钟）进行阅读

   一、资本的游戏

   在“江湖”上流传着这么一段话，大致内容是：

   站长收割机，流量截胡达人百度daddy在2019年8月跟投知乎，快手领头，随后，百度对知乎提权，流量表现节节攀升

   当时我看到这段话的时候，对接受的信息量打了一个问号，为什么？

   熟悉传播学的朋友应该知道一条基本原则：

   对于任何事情，我们要尽量关注事实判断，而非价值判断

   因为事实判断是确凿的，能够达成共识；而价值判断是依赖于视角和立场的，可以有多种解读

   这里的投资事件为事实描述，后面产生的影响为价值描述

   然而就这么一个简单的事实性描述网上却有N个版本，有说错时间点的，还有说错投资方的

   进行验证后，你还会发现百度也投资过快手，可能是另外一个机会？

   有时候思路就是根据事实发散出来

   那么关于价值判断，是不是真的有流量增长？是不是真提权？

   直接上数据验证（这里从投资时间点2019.8分段取爱站半年的数据，稍有误差并无大碍）：

   词量数据

   通过词量数据我们可以观察到以下2点：

   从2019年11月中旬开始，流量跳跃式增长，词量从30W涨到270W，近10倍！

   从2020年7月开始，流量增长放缓，但仍保持增长趋势

   那么，这些流量是以何种方式增长的？

   收录数据

   通过收录数据我们可以观察到以下两点：

   虽然数据口径不同，但在流量跳跃式增长期间，收录量并无增长趋势，也就是说，原收录页面在对应搜索词下的排名提升了，提权实锤

   当已收录的页面不能覆盖更多搜索词的时候，百度给知乎的定向流量将到达临界值，嗝~

   上面的分析很容易造成一种“废话感”，因为分析结果跟首次接收的信息基本相同，我们的大脑不能处理相同的信息

   这恰恰是两个思维方式“归纳法”和“演绎法”的不同之处

   如果不做验证，归纳思维隐含假设了百度提权是真实的，导致后面的动作全部基于一个假设

   而演绎思维的每一步完全基于条件为“真”的前提，想想看，如果分析结果相反会导致什么结果

   在这个信息爆炸的时代，我们实在太需要筛选信息的能力，其中保持独立思考显得尤为重要，但独立思考并不是针对everything都要提出不同观点

   有效思考是必须建立在足够的知识积累之上，不然就是盲目思考

   如果身处陌生领域，学习同行仍然是不错的选择

   那么虽然流量增长放缓，但如此巨大的流量知乎并没有全量“吞下”，现在仍然有且肯定有机会来利用这个红利期获取流量并且赚钱

   Let’s keep going !

   二、SEO？

   收录？排名？提权？如果你产生了疑问，那你可能还不太了解SEO这个领域，下面简要描述

   SEO即通过了解搜索引擎（以下简称SE）的规则来调整网站，使其在目标搜索引擎上的排名提高，达到获取流量的目的

   收录：SE的爬虫系统抓取网页后，缓存在服务器上的行为

   权重：SE对站点的综合评分，排名的主要依据

   排名：页面缓存在搜索结果中的排列位置

   以上3点均为动态变化

   那么，一个搜索流量是如何产生的呢？

   首先用户输入搜索词（query），向SE发起搜索请求，SE将已缓存的页面通过算法进行排名计算，然后返回给前端（浏览器），用户观察搜索结果，根据自己的喜好从搜索结果中点击页面

   一个页面要想有流量，就得先有收录（被SE缓存），然后还得排名靠前（top10），然后还得有人搜（搜索量），最后还得看了让人想点击（标题+描述）

   在点击的环节，知乎具有重要的先天优势，经过多年“知识型”平台的定位与发展，用户对知乎品牌建立起天然的信任感，可能导致即便排名不在前3名，但仍然能获得超过同位大盘的点击率

   此次双剑合璧，百度给知乎做定向流量，而知乎又将流量效率提升了一截，美哉美哉

    三、蓝海问题+蓝海流量

   那么我们的机会在哪呢？

   宏宏最近缺钱，于是去百度上搜了“怎么来钱快”（真实数据，仅做示例），发现知乎某个页面排名第1

然后小手一抖点击进入，望着空荡荡的页面，面部表情发生了细微的变化

   坑爹呢这是！

   5年的网赚经历给了我敏锐的嗅觉，这是机会

   于是我拿到了百万级关键词+知乎数据，筛选分析后发现，有相当一部分问题页面有搜索流量但是存在以下情况：

   回答未解决搜索需求

   回答质量低

   回答少

   回答前N名赞少

   那么我们能不能找到这类问题，自己编写答案，然后使得排名靠前，向我们自己的载体（微信/公众号等）导流？

   答案是肯定的！

   综上所述，有搜索流量并且竞争低的问题，我们统称为“蓝海问题”，这些问题流量的集合，我们统称为“蓝海流量”

   下面来个小炸弹，朋友们体验先~（SE排名是动态的，大家实际搜索可能略有出入，另外考虑到公开性，大概选了一个例子）

BOOM！没错就是gay，同一个问题PC和移动端排名都是第2，移动月均搜索量44.7W，PC月均搜索量9.5W，加起来50W，排名第2的点击率为20%左右，也就是说这个问题一个月有10W的SEO流量，里面的回答呢？

   第1名只有58个赞，有机会上去吗？有！有方法变现吗？

   四、突破认知局限

   有些朋友们可能到这里就坐不住了，脑子里开始构思所在行业应该如何操作

   可是，万一你所在的行业没有蓝海流量呢？为什么一定要在你熟悉的领域做呢？

   流量高手的思维，从来都是大盘思维，即以全局的视野来思考问题

   而此次，我们要分析知乎整体搜索流量的分布，哪里有蓝海流量，我们就去到哪，而不只局限于某个问题，某个行业

   甚至知乎好物完全可以基于蓝海流量的思维

   始终记住我们的目的只有一个，那就是赚钱

   同时，这也是我写【TACE】（TrafficACE，流量高手）这个公众号的主要思想，只不过后来去折腾项目，很少发文，咳咳….

   前面讲了不少内容，那是因为我想把“道”这个层面讲清楚，即为什么这么干；而“法”是死的，规则发生变化，方法立即失效

   举个例子：特斯拉诞生之初，电池成本比当时市面上低了10倍，CEO马斯克为什么能做到？

   那是因为他的道是“物理学思维”，把事物拆解成最小单元寻求解决方案（TED有演讲）

   但是，80%的人都喜欢直接得到方法，why？

   爸爸说他听爷爷的姥爷说过，在几十万年前，人类还在狩猎阶段的时候，为了存活下去，才诞生了大脑

   而大脑的进化需要上百万年，人类诞生历史不过才二十万年左右，也就是说现在我们还是用着“旧脑子”

   其中“旧脑子”一个显著的特点是最小作用力原理，人类天生会默认做出消耗脑力低的行为，即能不用脑就不用脑，而道理的学习用脑程度较高

   包括我，每当自己懒得动脑的时候，我就嘲讽自己是个原始人，咳咳…

   那么下面，就让我们一步步的进入“战场”

   五、打造百万级词库

   词库是用户搜索词和词属性的集合

   我们尽可能的收集N个渠道的关键词，因为每个渠道或第三方平台都有他的局限性

   在流量高手眼里，词库里躺的不是一个个的关键词，而是一张张的RMB

   以搜索流量的视角来看，在大多数情况下，加词等于加流量

   你能找到别人找不到的词，你就能拿到别人拿不到的流量，从而赚到别人赚不到的钱

   关于数据的储存格式，个人建议直接使用csv形式，以逗号为分隔符的本地文件储存，相比于mysql类的数据库，用Bashshell来查询和分析不要太方便

   拿词渠道：

   5118，爱站，站长之家。

   下面我用5118举例

   5.1母词获取

   1）5118

   分别下载百度PC关键词和移动关键词，分开处理

   没有会员的朋友自行淘宝，有企业版的朋友建议全量导出

   接下来的步骤，我们会开始涉及一些编程知识：

   Bash shell(Linux) + Python

   因为此次数据计算的需求常规工具已经不能满足，所以我们要动用“神秘”的编程力量

   我自己已经全部开发完毕，部分简单的Bashshell命令行直接在文章内给出

   但是我相信就这一点会让80%的人知难而退，可是包括我，谁又不是从小白一步步走过来的呢？

   编程真的没有那么难，trustme！如果可以，告诉自己做那20%

   另外请记住，我们不是要成为一个专业的程序员，编程能力能满足我们当前所需就好

   2）初始处理

   转码（GBK>），因为5118给出的数据编码是GBK，而Linux里需要

   只输出关键词，不使用其他数据，因为第三方数据的准确度实在差强人意，像5118这种量级每天的更新量少说也要1亿，成本摆在这。

   获取前100名第一因为数据准度低，后面我们要自己验证数据第二前面提到过动态排名&百度提权，在你获取数据和验证数据中间存在时间差，在时间差里排名可能已经发生了变化。

   bash shell：

   cat 输入文件名| iconv -c -f GB18030 -t utf-8| grep -Ev "整域百度PC关键词排名列表|百度指数|100以外"|awk -F, '{print $1}' > 输出文件名

   3）关键词清理

   特殊符号

   [\s+\.\!\?\/_,$%^*()+\"\']+|[+——!，:：。√?、~@#￥%……&*()“”《》～]

   非常容易忽视的一步，很多人天然信任不同渠道产出的关键词数据（包括百度），但是“流量高手，”与“流量高手”的搜索量数据差了十万八千里

   网址
   www|com|cn|cc|top|net|org|net|cn|rog|cn|tv|info|wang|biz|club|top|vip

   年份替换，例如2010年替换为2020年

   中文长度>=2（可选）

   4）去敏感词

   非法词汇你懂得，这里我们使用了DFA算法，平均处理一个关键词不到0.1s

   5）去重

   去重是非常重要的一步，但对内存要求比较高，也就是说你要去重的文件大小不能超过可使用内存大小

   目前的解决方法是用sort+uniq，先用split将目标文件分割，然后用sort逐个排序，然后sort+uniq合并去重

   虽然没有大幅减少内存使用大小，但提升了计算效率

   bash shell 简版：

   cat 输入文件名 | sort | uniq > 输入文件名

   bash shell 大数据版：

   #!/bin/bash#命令行参数：#$1 输入文件#$2 输出文件basepath=$(cd `dirname $0`; pwd)echo `date` "[wordsUniq.sh DEBUG INFO] 开始文件分割..."split -l300000 $1 ${basepath}/words_split/split_ #文件分割echo `date` "[wordsUniq.sh DEBUG INFO] 开始单个排序..."for f in `ls ${basepath}/words_split/`dosort ${basepath}/words_split/${f} > ${basepath}/words_split/${f}.sort #单个排序doneecho `date` "[wordsUniq.sh DEBUG INFO] 开始合并去重..."sort -sm ${basepath}/words_split/*.sort|uniq > $2echo `date` "[wordsUniq.sh DEBUG INFO] 删除缓存数据..."rm ${basepath}/words_split/*

   使用方法：

   储存为filename.sh文件，在当前目录创建words_split文件夹，然后使用如下命令行，输入输出文件均可指定路径

   sh脚本名称。sh输入文件输出文件

   OK，处理完毕，现在我们已经得到了两份非常“干净”的母词数据，即知乎百度PC关键词和移动关键词

   5.2词扩展

   词扩展即对获得的母词进行扩展，因为一个页面可能命中多个相关的关键词

   进而我们可以假设，从第三方平台获取的词只是他们所能找到的，当前知乎所能命中的词的子集

   我们要尽可能的把其他部分的词找出来，从而比较准确的预估一个问题页面的百度流量

   假设现在有A和B两个问题，在你的词库中，A命中50个关键词，总流量为1W，B命中10个关键词，流量为100

   那么你可能将B问题忽略掉，只处理A问题

   可是，B问题实际上命中了100个关键词，流量为10W

   这样由于数据的不完整性造成了信息差，进而直接错过了获取这些流量的机会

   举个例子：

   经过扩展，这个页面共命中47个关键词，PC+移动总流量为132W，广告太多知乎被迫风控提醒，下面是展示该部分数据

   知乎蓝海：2000W流量机会掘金指南知乎流量经验心得第16张

   怎么样，是不是开始慢慢感受到数据的魅力了？打起精神，Let’skeepgoing！

   由于只做百度流量，下面只使用百度来扩展

   1）相关搜索+下拉框词抓取

   很多人只知道抓这两个渠道，并不知道这两个渠道的性质：

   相关搜索

   相关搜索为横向扩展，大部分为跨关键词主题的相关扩展，其中可能出现主题严重漂移的情况，为保证相关性，只抓取一轮

   下拉框

   下拉框为纵向扩展，大部分在关键词的结尾追加词缀

   阐明渠道性质的意义在于，关键词这种文本数据，扩展方向有且只有这两个，其他扩展渠道方法都是这两个基本方向的叠加或者变种

   因为不同端产出的数据可能不同，所以我们要把PC端和移动端的母词，分别进行同端口的扩展

   即PC母词抓PC相关搜索+PC下拉框，移动母词抓移动相关搜索+下拉框

   2）百度推广后台词扩展

   路径为：注册/登录>进入搜索推广>推广管理>关键词规划师>关键词

   注册免费，另外你还可以使用艾奇SEM工具/斗牛SEO工具等

   3）词处理

   先将各个渠道的词分端口合并

   bash shell：

   cat file1.txt file2.txt > all.txt

   然后重复【5.1母词获取】的关键词清理和去重部分

    5.3获取关键词流量

   同样使用到百度推广后台的关键词规划师，但使用的是“流量查询”的功能

   这是百度官方给出的流量数据，以前的数据口径是日搜索量，现在变成了月搜索量，不过并无大碍

   有的朋友可能产生疑问，为什么不先抓排名筛选数据，减轻下一步的数据量压力？

   因为关键词规划师一次能查询1000个！10W个关键词只需查询100次！

   并且实测证明获取一次cookie可跨天使用，并保持10+个小时的有效登录（答应我，请务必下手轻一点）

   1）流量数据获取

   通过模拟登录的方式post关键词数据

   2）数据筛选

   每个端只保留搜索量>=N的关键词（数值自定义）

   你可以在数据获取的同时去做筛选，也可以拆开另做一个筛选步骤，这里个人建议后者，万一指标不合理还有重新筛选的余地

   bash shell：

   cat file.txt | awk -F, '{$2>=100}' > file_new.txt

   5.4获取关键词排名

   分别获取各端的排名数据，只保留

   https://www.zhihu.com/question/{问题ID}

   这个url特征下，前10名的关键词，以及储存对应的问题url

   5.5可获取流量

   关键词流量并不等于知乎问题页面能获取的实际流量

   前面提到过，搜索流量在到达页面之前还有一个点击的步骤，所以我们应该把可获取流量计算出来，公式为：

   可获取流量=流量X点击率

   点击率根据排名估算，但是百度似乎从来没有发布过点击率数据，咳咳…

   但是我们找到了一份Sistrix在2020年7月14日发布的google点击率数据，该数据分析了超过8000万的关键字和数十亿的搜索结果

   虽然只是移动端的统计，但并无大碍

   原文（英文）：

   https://www.sistrix.com/blog/why-almost-everything-you-knew-about-google-ctr-is-no-longer-valid/

   每个关键词的可获取流量计算完成后，我们的词库就搭建完毕了，Niceee！

   六、知乎数据获取

   数据获取的目的是，我们能从这个N个维度的数据中，初步判断出某个问题的难易度（对应9.1数据筛选）

   数据在精不在多，过多的数据只会干扰判断

   问题浏览量

   问题关注量（知乎站内流量）

   问题创建时间

   回答数量

   第1名赞数量

   第1名回答字数

   第1名回答时间

   目前为止，我们需要的基础数据全部准备完毕，现在你应该得到了一个百度+知乎数据的关键词文件，goodjob！

   如果你坚持到了这里，我相信，我会非常愿意认识你这样的朋友^_^

   七、数据分析

   7.1关键词分组

   面对海量杂乱无章的数据，我们需要通过关键词分组的形式，将相关的关键词和其对应的问题页面聚集到一起

    1）jieba分词

   利用python-jieba模块，将每个关键词切分成N个词项（term），比如“流量高手”会被分词为“流量”+“高手“，包含相同词项的词视为一组

   2）词项去重

   参考【5.1母词获取】的去重部分

   3）词项数据计算

   用每个词项去匹配关键词，并计算匹配结果的数量（词频）和可获取流量总和

   SEO的朋友们可能有种熟悉的感觉，这种方式类似于搜索引擎的“倒排索引”，我们实际上就是以term为索引，归类了知乎URL

   下面随便拿点演示数据：

   7.2人工分类

   直接按词项分组是单纯从字符串角度上的分组，简单粗暴但缺乏语义关系

   比如“炒股”和“股票”这两个特征应该属于金融类，但按词项分组就会变成两组，所以最后应该人工过一遍

   分类完成后，将对应的词频和可获取流量总和相加，得到总数据

   然后用思维导图/表格的形式记录，下面用思维导图示例

   但是记住，不要为了分组而分组，没有明显相关性的词项不应该被分到一组，否则那是在给自己找麻烦

   八、问题筛选

   8.1数据筛选

   现在我们可以从可获取流量最多的类别中选取一个词项，在我们完成【6-7】后的关键词文件里，使用Bashshell或者在Excel-csv里搜索“关键词列”，找出包含这个词项的关键词，然后用指标来筛选，下面给出几个筛选数值仅做参考

   问题浏览量（辅助）

   问题关注量（辅助）

   问题创建时间（辅助）

   回答数量<=50

   第1名赞数量

   第1名回答字数

   第1名回答时间（辅助）

   可获取流量

   说一个场景，经过硬性指标筛选后，如果一个问题页面的浏览量远低于可获取流量，关注量少，问题创建时间为最近，第一名回答时间为最近，那么这类问题需要重点mark一下

   但是why？朋友们不妨自己思考一下

   好啦我来告诉你，每一类人群的数量是有限的，如果把上面的条件反回来，那么很可能你已经miss掉一部分流量，所以我们要有抢占先机的意识

   筛选完成后，可按照【可获取流量】或【第1回答赞同数量】等条件降序排序，蓝海问题一目了然

   8.2人工筛选

   人工主要来解决数据判断不了的内容问题，即第1名的回答是否未满足问题需求，主要找以下2种类型：

   1）直接满足，但用户的隐含需求未被满足，存在扩展空间

   举例

   Q：“汽车多久保养一次”

   A：“我一般一季度保养一次”

   A（new）：“不同品牌的汽车保养时间不同，我下面列出所有品牌xxx，保养项目xxx，机油选择xxx，保养什么坑xxx”

   2）间接满足

   正好翻到一个，上图

   回答说明了按键精灵，但并没有给出这个脚本怎么写

   相信到了这里，你已经找到了N个类别的N个问题，然后马上开始分析问题>列大纲

   Stop！请立刻停止你的上头行为，我们还有最后一步

   九、流量跟踪

   万里长征最后一步，非常重要，非常重要，非常重要

   我们前面提到2点：

   在百度推广后台-关键词规划师中，流量的数据口径是月，并且是预估值

   SEO的网页排名是动态的

   这就可能造成结果的不稳定性，辛辛苦苦做了数据，写了回答，搞了排名，结果却没有阅读量？

   所以我们要监控页面的浏览量是怎样增长的，来确定这个页面是否真的获取了流量，能获取多少流量，最终判断要不要回答这些问题

   监控时间单位可以是天，细致点可以每N个小时，监控时长大家自己判断，当然越长越准确

   举个例子，假设某个问题的可获取流量为15W，那么平均每天的可获取流量为5000左右，那么3天（不考虑节假日）的可获取流量为1.5W

   记录该页面的浏览量并且对比，只要上下浮动不是特别大，那么就可以列入我们的回答清单

    十、最后

   我们将视角提升到整个营销的层面，会发现蓝海流量获取是整个营销环节的第一步，其他部分诸如回答排名&流量路径&变现等

   还有很多方法技巧类能帮助我们更好的利用蓝海流量，比如数据交叉计算，进阶玩法等

   但是要将上面说的展开，又是很大一部分内容，受时间和精力所限，我们下次再讲

知乎蓝海2000W流量机会掘金指南 获取知乎流量的正确姿势

相关帖子

知乎蓝海2000W流量机会掘金指南获取知乎流量的正确姿势