如何使用演示系统 注意:请在PC端访问本系统

检索抓取文章

检索爬虫抓取的“云大物智”关键字的文章/帖子,文章发布时间段请选择2018/7/1~2019/2/28之间,其他时段没有数据。 涉及到的知识点包括第3章Python数据抓取、第4章HiveETL数据清洗及第5章HBase数据存储

站点PV实时统计

用户点击【开始模拟】,“放出”爬虫访问两个站点10秒钟,利用Flume收集网络访问日志,数据汇集给Kafka,Kafka再传递给Flink,Flink再把数据插入Redis和HBase,前端使用Flask框架配合图表插件读取数据并实时绘图。

生成词云图

运行此页面前请先运行站点PV统计页面。本页面会把访问量最高的20个页面的关键字找出,生成词云图。比如运行站点PV统计的时间段是本日11:33:01~11:34:01,则生成词云图页面的访问时间段也要选择本日11:33:01~11:34:01。

访问日志检索

运行此页面前请先运行站点PV统计页面。本页面会检索刚才模拟访问页面生成的访问日志。比如运行站点PV统计的时间段是本日11:33:01~11:34:01,则本页面检索条件中访问时间段也要选择本日11:33:01~11:34:01。