我们日常平凡在用Python爬取网页上的数据时,对爬取到到的数据做数据阐发展示有良多种体例,好比能够通过echart图表接口、python供给的第三方库,以至还能够用matlab东西来进行数据统计和图表可视化展示。
可无论是以上哪一种体例,都需要通过代码来挪用Python爬好的数据来进行绘图,图表样式属性设置等方面仍是比力繁琐的。
同样的问题,有一次小编带领要求我做一份相关于南京房价的数据报告请示,需要做到报表里面。数据是没有的,天然而然想到用Python爬,爬好后间接做数据图表粘贴到报表中。但后来发觉方式太土,报告请示时欠好做动态的数据展示(影响小编炫技装逼)。于是乎就想法子,将爬取到的数据导入到报表或者BI系统里面,操纵BI本身的一些阐发功能,联动着其他数据做展示。于是就有了本篇“Python爬数据,FineBI绘图”的文章。
这是一个可视化的自助式BI东西,整个操作就是导数据/连数据库——处置数据(可视化ETL)选择图表——拖数据字段——可视化展示&美化,操作简单上手快。小编只是用了其可视化的一隅功能,大都环境下,这个东西都是拿来做可视化报表,对接企业大数据平台,做企业数据运营阐发用。
由于想看看南京房价数据,可是网站上的良多数据都是以HTM5的形式进行呈现的,所以考虑通过Python来进行网页数据抓取和入库,数据阐发方面通过FineBI东西间接毗连数据库,阐发和可视化呈现。
数据层方面先通过Python抓取到WEB端的网页数据,之后对爬取到数据进行解析再而存储到MYSQL数据入库;
最初使用层的数据处置、数据计较统计、图表可视化呈现等工作全都交由FineBI东西来做。
起首新建python工程,引入本次爬取网页数据和写入MySQL数据库所需要的requests、pymysql、bs4这三个包:
然后如下图所示,通过编写Python代码获取到某一个房产网页的南京售房平台的网页消息:
接着再对DIV样式下的HTML数据包进行一一解析,获取到想要的房源名称、地址、小区、户型、面积、总价、单价、区域等数据:
此中对应网页的标签样式能够通过浏览器的F12开辟选项进行快速获取,如下图所示的定位房源消息截图,我们只需要右键浏览器在所需要获取标签样式名称的处所点击查抄元素即可(房源名称的标签即位house-title的title元素)。
轮回遍历该平台在南京比来七天的网页售房消息数据,页面17页,共计377条数据:
间接通过FineBI供给的数据设置装备摆设端的功能,添加SQL数据集(或者间接添加表也行),查看和验证方才爬取而且入库的数据能否曾经真正成功入库到MySQL中了。
如下图所示,Python公然不辱任务,我要的该平台的七天南京的房价售房数据都曾经成功写入到了我的MySQL数据库中了。
然后思虑需要阐发展示哪些内容,好比“南京各小区房价分布”、“房型价钱阐发”、“各区域房价阐发”…..通过FineBI制造图表展示。
下面这个动图展现了一个图表的制造,其他都雷同的,可参考。不懂可拜见FineBI官网的协助文档。
花了十分钟,就将我想要看的南京售房消息(房源面积均价、套房总均价、小区房价四象限分布图、区域房价阐发、房型价钱阐发)以可视化的形式呈现出来了。
1.目前南京房源均价为3.78万每平方米,总均价为401.38万,总体上仍是比力高的。
2.建邺区房价最高,公然房价仍是紧跟国度政策啊,建邺目前城区开辟扶植当局的搀扶力度在南京都是走在前面的。鼓楼、玄武、秦淮别离排在二、三、四的位置,雨花台和江宁房价相对较低,分析市区位置来看,仍是秦淮区性价比最高啊 。
3.房型方面,6室3厅的奢华大宅总均价接近一万万,好比紫檀雅居、碧水湾别墅、滨江奥城听雨苑这一类土豪小区,多集中在建邺和鼓楼区域;一室一厅的房子均价大要在150万的样子,好比托乐嘉独身公寓、经纬城市花圃等小区,适合独身贵族或者情侣小佳耦栖身,南京各个大区都有;比力支流的三室一厅房价在300万摆布,好比乔虹苑小区、良辰美景家园、白云园,多集中在秦淮和鼓楼区域。
Python完成对网页数据的抓取息争析存储之后,共同FineBI强大的数据可视化呈现能力则完美地完成了本次对南京售房数据的统计和阐发需求,绝对保举!
【江湖人士】(jhrs.com)原创文章,作者:江小编,如若转载,请注明出处:https://jhrs.com/2018/24370.html
扫码加入电报群,让你获得国外网赚一手信息。