个推技术学院:100行代码实现疫情地图可视化,原理是什么?
- 大数据
- 移动开发
这个春节,大家都在密切关注着疫情的进展。不少人每天醒来打开手机的第一件事,便是查看家乡的疫情图。你所看到的可能是这样的:
(图片来自丁香医生)
又或者是这样的:
(图片来自杭州日报)
疫情进展牵动着我们的心。作为一名开发者,我们闭门在家为抗击疫情做贡献的同时,也可以继续深耕自己的技术。此文章旨在向大家介绍疫情地图可视化的原理,帮助大家深入理解echart。
核心思想
疫情图的核心在于疫情数据整理以及疫情数据可视化。
疫情数据整理
本文疫情数据是由网易新闻的公开数据整理而成,仅用于demo 展示。数据的具体地址已在代码中说明:此地址是一个 Get 请求,大家可以先拷贝地址到浏览器中查看数据格式。 请求成功后服务端响应的数据格式如下(文中仅罗列出我们需要的数据):
data 里面的参数
Object 里面的参数
疫情数据可视化
地图是数据可视化的一种常用工具,我们用地图来展示疫情的具体分布。本文采用的是开源的 [pyecharts](http://pyecharts.herokuapp.com/) 项目,方便开发者用于地图展示。其中,pyecharts 是一个帮助生成 Echarts 图表的类库;而 Echarts 则是百度开源的数据可视化 JS 库,支持折线图、柱状图、散点图、K线图、饼图、雷达图、和弦图、力导向布局图、地图、仪表盘、漏斗图、事件河流图等12类图表,并可以在 PC 和移动设备上流畅地运行,兼容当前绝大部分浏览器。pyecharts 是在 Python 的基础上对 Echarts 所进行的扩展。
实现原理解析
接下来,本文将为大家详细说明如何搭建环境、整合数据、使用 pyecharts 来做数据可视化以及如何调试项目。
环境搭建
为了快速开发此功能并且尽可能地缩减代码量,此 demo 选择使用 Python 来进行开发。为此,我们应该准备好Python 的开发环境并导入python 基础库。
安装 Python 环境
Mac 上面自带了 Python2.7 ,其他机型的电脑可以参考网上相关的安装教程。
安装 pip
pip 是 Python 包管理工具,使用该工具可以快速地对Python 包予以查找、下载、安装、卸载等。如果你是在 python.org上下载的最新版本的安装包,则系统已经自带该工具。此外, Python 2.7.9 + 和 Python 3.4+ 以上版本都自带 pip 工具。 可以使用“pip –version”命令行来查看当前 pip 的版本。
如果本机没有 配置Python 环境的,我们可以在线安装,只需要在终端输入以下 2 行命令即可:
$ curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py # 下载安装脚本
$ sudo python get-pip.py # 运行安装脚本
安装工程所需要的插件
在代码中大家不难发现我们导入了一些开源的库:
import math
import time
from fake_useragent import UserAgent
from pyecharts.charts import Map
from pyecharts import options as opts
import requests
import json
import sys
请求网络数据需要用到的插件:
pip install fake_useragent # 伪装请求,随机生成UserAgent
pip install requests # HTTP请求库。
地图展示需要用到的插件:
pip install echarts-countries-pypkg # 世界地图
pip install echarts-china-provinces-pypkg # 中国省级地图
pip install echarts-china-cities-pypkg # 中国城市地图
我们把上述的命令行复制到终端,逐行执行即可。
数据整合& 过滤
代码依然简洁明了,我们可以直接使用 requests 库构建一个 GET 请求,服务器响应的数据即为“ 全国所有城市的疫情情况”。
ua = UserAgent(verify_ssl=False)
headers = {'User-Agent': ua.random}
url = "https://c.m.163.com/ug/api/wuhan/app/index/feiyan-data-list?t=1580469818264"
def getEpidemicInfo(url):
try:
response = requests.get(url, headers=headers)
print(response.status_code)
if response.status_code == 200:
content_field = json.loads(response.text)
epidemicInfo = content_field['data']['list']
return epidemicInfo
else:
print('请求错误码:' + response.status_code)
return None
except Exception as e:
print('此页有问题!', e)
return None
请求地址里面的 t 代表时间戳。 我们输入上述代码,计算机便会输出前文所提及格式的数据。注意:拿到数据后还要进行过滤,我们仅需获得某个省份、自治州所包含的地级市或者是某个直辖市所包含的下属区县的疫情信息即可。
通过以下代码,我们对有关数据予以筛选:
# 生成本省疫情列表
def makedict(list):
cityList = {}
for item in list:
for k, v in item.items():
# 1
if v == sys.argv[1]:
#2
if str(item["confirm"]).isdigit():
# 3
if v == "北京" or v == "上海" or v == "天津":
cityList[item['name'] + '区'] = int(item["confirm"])
elif "自治州" in v:
continue
else:
cityList[item['name'] + '市'] = int(item["confirm"])
return cityList
sys.argv[1] 是一个传参,代表我们手动输入的省份、自治区、直辖市或特别行政区,比如浙江、新疆、北京、香港等;
“confirm” 关键字用于匹配响应结果的 value 值,在上文疫情数据整合里有提及,代表当前城市的疫情人数;
pyecharts 是根据城市的全称来适配的,此处需对数据格式中的地级市或者是下属区县进行排查,如果有城市采用简称的,需要进行调试,(如接口返回的城市名是恩施,我们则需要适配成恩施土家族苗族自治州),从而防止地图展示异常。
举例来讲,当我们输入浙江时,计算机最后输出的数据格式为:
{'湖州市': 9, '丽水市': 16, '舟山市': 7, '衢州市': 15, '金华市': 47, '嘉兴市': 30, '绍兴市': 33, '宁波市': 126, '台州市': 124, '杭州市': 151, '温州市': 396}
数据可视化
这是最核心的一步。makeEpidemicInfoMap方法里面的 dict 对应我们过滤得到的数据:
def makeEpidemicInfoMap(dict):
# 省和直辖市
province_distribution = dict
value = province_distribution.values()
print(province_distribution)
title = str(int(time.strftime("%Y%m%d")) - 1) + sys.argv[1] + "疫情地图"
epidemicCount = []
for k, v in dict.items():
epidemicCount.append(v)
# 1
epidemicCount.sort(reverse=True)
maxEpidemic = handle(epidemicCount.pop(0))
maxEpidemic = int(maxEpidemic)
# 2
map = Map()
# 3
map.set_global_opts(
title_opts=opts.TitleOpts(title=title),
visualmap_opts=opts.VisualMapOpts(max_=200, is_piecewise=True,
pieces=[
{"max": 9999999, "min": maxEpidemic, "label": ">" + str(maxEpidemic),
"color": "#780707"}, # 数据范围分段、分颜色,可以根据数据大小分配图形大小
{"max": int(maxEpidemic), "min": int(maxEpidemic / 8) * 7,
"label": str(int(maxEpidemic / 8) * 7) + "-" + str(int(maxEpidemic)),
"color": "#B40404"},
{"max": int(maxEpidemic / 8) * 7, "min": int(maxEpidemic / 8) * 4,
"label": str(int(maxEpidemic / 8) * 4) + "-" + str(
int(maxEpidemic / 8) * 7 - 1), "color": "#CD1111"},
{"max": int(maxEpidemic / 8) * 4, "min": int(maxEpidemic / 8),
"label": str(int(maxEpidemic / 8)) + "-" + str(
int(maxEpidemic / 8) * 4 - 1), "color": "#F68181"},
{"max": int(maxEpidemic / 8), "min": 1,
"label": "1-" + str(int(maxEpidemic / 8)), "color": "#F5A9A9"},
{"max": 0, "min": 0, "label": "0", "color": "#FFFFFF"},
], ) # 最大数据范围,分段
)
# 4
map.add(title, data_pair=province_distribution.items(), maptype=sys.argv[1], is_roam=True)
map.render(sys.argv[1] + '疫情地图.html')
根据所选省份各城市的确诊人数对所有城市进行降序并得到当前省份确诊人数最多的城市名称。maxEpidemic 是最接近该城市确诊人数的高位数,比如当前省份疫情最为严重的城市的确诊数量为“357”,则 maxEpidemic=300 ,引入此参数的目的是让地图呈现效果更加清晰直观。
用PyEcharts绘制地图需要对Map对象进行初始化,以用于地理区域数据的可视化。
以建造者模式对 map 进行设值,其中,VisualMapOpts 是 PyEcharts 的视觉映射配置项,
# 指定 visualMapPiecewise 组件的最大值。
max =100
# 是否为分段型
is_piecewise: bool = False,
# 自定义每一段的范围、文字以及每一段的特别样式。例如:
# pieces: [
# {"min": 1500}, // 不指定 max,表示 max 为无限大(Infinity)。
# {"min": 900, "max": 1500},
# {"min": 310, "max": 1000},
# {"min": 200, "max": 300},
# {"min": 10, "max": 200, "label": '10 到 200(自定义label)'},
# {"value": 123, "label": '123(自定义特殊颜色)', "color": 'grey'}, //表示 value 等于 123 的情况
# {"max": 5} // 不指定 min,表示 min 为无限大(-Infinity)。
# ]
详细配置可参照 PyEcharts 官网。我们将范围分为6 段,每一段范围均是根据上述方法计算出来的 maxEpidemic 进行动态调整而成,目的是保证疫情图的视觉效果最佳化。文中,我们做了简易的范围模型供大家参考。如果大家想优化展示效果,可以对范围的取值与分段进行调试。
使用 PyEcharts 在当前目录下生成一个网页。
调试
执行 python map.py [省份],如:python /Users/xxx/map.py 浙江,
则会在当前目录下得到一份名为 浙江疫情地图.html 的文件,直接使用浏览器打开即可,最后的展示效果如图:
总结
读完此篇文章,希望大家可以对数据可视化有个初步的了解。全民战“疫”期间,个推服务的脚步不会停歇,我们将一如既往地为开发者提供技术支持。此外,个推“防灾速报”小程序还上线了 “新型肺炎疫情实时动态”新功能(https://fzsb.getui.com/dwps/disaster/article/ncov?from=groupmessage&isappinstalled=0),为人们进行疫情防护提供可靠的数据支持。(附小程序二维码)
2020年的开篇并不平凡,但我们万众一心,抗击疫情。春天来了,胜利还会远么?武汉加油! 中国加油 !
-
每日互动官方微信号
公司动态、品牌活动
-
个推官方微信号
新品发布、官方资讯
-
个推技术实践
技术干货、前沿科技