近来,一个关于美国和欧洲疫情数据的 "神预测" 的日更博客,在网上火了。
到底有多神呢?略举二三,如下:
3 月 27 日起的连续 10 天里,该博客对美国感染人数的预测准确率都在 90% 以上,其中在 4 月 4 日,准确率接近 100%(预测为 276727,实际为 276931)。
3 月 31 日,该博客预测美国疫情将在 8-10 天内当检测人数超过 200 万的时候出现断崖式下跌;7 天之后,也就是 4 月 6 日,美国疫情数据出现断崖式下跌,增幅从 12.43% 降为 8.13%——这篇文章引起了巨大反响,阅读量超过 134 万。
自 3 月 27 日以来,该博客对欧洲感染人数的每日预测平均准确率达到 97%,其中在 4 月份的前五天,预测准确率接近 100%。
李志斌对美国感染人数的预测(乐观),准确率高达 90%
对此,有网友评论称:大神,病毒都听你的,绝了。
要知道,新冠肺炎疫情的爆发是一个涉及到政治、经济、地理等诸多复杂因素的全球性重大公共事件,对具体人数的预测听起来就像是天方夜谭,准确率更是一门玄学——所以,能够实现上述的预测成绩,这个博客背后的博主堪称是当代 "神算子" 了。
那么,这位 "神算子" 是怎么炼成的?
清华大学毕业 + 8 年市场预测经验
这个博客背后的博主,也就是 "神算子" 本人,名为李志斌。
李志斌,1980 到 1985 年就读于清华大学计算机系,1985 到 1994年,他就读并就职于中科院,三十岁担任副研究员、产品部主任、所长助理,1994 年移居新西兰,后定居香港至今,现任香港致佳物流软件有限公司、香港易经科技有限公司总经理。
李志斌博客截图
在李志斌所在的这两家公司中,前者的主营业务是物流系统开发(Logistics Systems);后者有香港中文大学背景,主要业务是市场需求预测(Market Demand Forecast),也就是为企业提供在未来 3 到 6 个月内特定区域的产品需求、价格波动等方面的数据分析和预测。
在接受雷锋网专访时,李志斌表示,他从 2012 年开始进入数据分析和预测领域,由于易经公司的香港中文大学背景,李志斌也从教授们那里耳濡目染学了不少东西。
另外,从技术层面来说,李志斌在清华大学计算机系的学习经历,也让他在软件建模、大数据分析等方面已经形成一个完备的知识体系;同时,清华大学的理工科学风和背景,也让他更加重数据、重证据、重例举,而不是重结论。
所有这些加起来,让李志斌对 "数据" 非常敏感。
去年底今年初,武汉开始报告病例,香港也出现疑似新冠病毒患者,这让长期身在香港的李志斌颇为警惕;到了 2020 年 1 月 7 日,香港特别行政区政府宣布新冠肺炎为法定传染病,并开始向公众通报疫情数据,由此,李志斌开始了对新冠肺炎相关数据的追踪。
从那时开始,李志斌每天早上起来进行集中数据采集,一开始只是武汉、湖北、香港的数据,后来是内地其他地区数据,到了 1 月下旬,开始收集海外数据,并整理成 Excel 表,同时开始利用自己的专业知识进行数据建模,并结合新闻中的数据对官方通报数据进行分析和判断。
最初,李志斌只是在清华的同学群里分享数据和观点,后来也每天花出 30 分钟的时间来博文,并发表在新浪博客上。如今,这已经形成了每天的习惯。
当然,对于李志斌而言,除了对常规的数据进行收集、整理和分析之外,他也在不断结合自己的专业知识来构建一个数据模型,并且不断对这个模型进行参数补充和验证,使之达到预期中的效果。
到了 3 月 27 日,李志斌在数据模型已经趋于稳定的基础上,第一次给出了针对美国感染情况的预测数据;3 月 28 日,他又给出了针对欧洲感染情况的预测数据。
李志斌对欧洲感染人数的预测,平均准确率高达 97%
在他的预测中,不仅仅包含感染病例数量,还包括感染增速、峰值时间、总感染人数、总死亡人数、死亡率等数据——当然,感染人数是他用来衡量预测准确率的最为重要的指标。
就连李志斌自己都没有想到,自己的预测数据会那么准。
但是李志斌强调,没有人可以 100% 准确预测未来,一定要滚动预测。他表示:
预测是一个动态过程,因为好多即时措施、事件等突发因素,是无法预测的,这个时候需要把这些突发事件和决定等因素变成对参数的调整,反馈到预测模型中,使之运行更加准确。我的预测模型、预测参数也在不断完善过程中。
再好的软件也不能 100% 预测准确
李志斌的预测,离不开两个核心要素:数据,和预测模型。
首先是数据的可信度问题。在采访中,李志斌表示,自己从 1 月份开始每天收集数据,一开始只有武汉和香港有数据,一直到现在,每天收集上百个国家和地区的数据。
李志斌强调,在数据收集和分析的过程中,一定需要甄别数据冲突(Data Conflicting)的出现;尤其是在官方通报的数据量比较大的情况下,会用好多方法包括新闻数据去检查不同地区的数据之间可能存在的数据冲突,数据冲突点越多,数据的可信度越低。
同时,在判断数据真实性的过程中,要看数据发布的速度;数据发布频率越高,那么可信度就会更高一些——而南亚、东南亚地区发布的数据比较少、比较慢,可信度就会打折扣。
来自美国 CDC 官网的疫情情况
另外,在对数据的可信度进行判断时,还可以借用新闻数据来做对比。李志斌告诉雷锋网(公众号:雷锋网),比如说,医生和病人之间的比例是比较稳定的,那就可以用新闻中报道的医疗人员数量,来反推病人数量。
他表示,其实,所有的数据都可能存在一些人为的误差或者统计误差,没有任何地区的可信度是百分之百;但是相对来说,美国的数据冲突比较少,在可信度上高一些,欧洲的数据可信度次于美国,因为西欧与东欧之间的不平衡,所以会取平均值。但印度、东南亚、日本等地区的数据就似乎存在一些问题,数据发布慢、数据冲突点较多,影响了数据可信度的设置。
到二月底,在之前以国内数据为基础建模、验证的基础上,李志斌开始对美国、欧洲两个地区进行疫情数据预测。于是,在数据的基础之上,李志斌打造了一个预测模型——实际上,这是一个极为复杂的模型,加起来有上百个参数,其中重要的参数有二三十个,分为以下三类:
第一类是疫情参数——不同地区/国家/城市确诊人数、人口、每日新增确诊人数、疑似人数、每日检测人数、死亡人数、治愈人数(含自愈人数)、在诊人数、入院人数(重症人数)。
第二类参数与地区/城市/国家特征相关——城市类型(古城、现代城市、乡村)、人口密度、气温、天气(大雨、阴雨、有雾、天晴等)、城市 60 岁以上老年人口比例、城市平均年龄、城市建设情况(主要是下水道的状况)。
第三类参数是关于资源和管治能力——医疗资源、病床数量、社会组织能力、信息透明度、管理方式等等。
李志斌表示,在实际的操作过程中,一般是先用 Excel 收集数据,然后导入到后台数据库中,在用自己开发的软件模型(里面包含了算法)来得出三个结论,最后自己会再人为地就结果进行判断——他强调,有很多参数是不能量化的,比如说社会情绪;所以需要人为参与。
他还表示:再好的软件也不能百分之百预测准确。
当大船和小船同时遇见冰山
在采访中,雷锋网发现,毕业于清华大学的李志斌,有着超越数据分析之外的超前洞见和思维。
比如说,在建模过程中,李志斌是从国内的数据开始的,这些数据不仅对李志斌的建模过程产生了重要影响,也让他得出了一些观察。于是,武汉封城前一天,他就在自己所在的 "清华 80 同学群" 里和同学们分享了两个想法:
这些想法在同学群里引起了很多讨论,当然也有质疑和反对,但更多的是同学们的积极参与,并提出了好多更好的想法和建议,获益良多。后来的事实证明,这些想法都是中肯的,并且也被官方后续采取的措施所印证——其中关于野战医院等想法更是超前了两周。
除了上述建议,李志斌还在数据分析和模型构建的过程中发现,成为疫情爆发点的城市往往具备几个特征:
老城区;
气候潮湿;
气温 5-15 度;
下水系统老化;
老年人比例高。
值得一提的是,在不同国家的疫情爆发城市,如中国武汉、韩国大邱、意大利米兰、伊朗德黑兰、美国纽约等,都大致符合这些特征。
对于这些特征的归因,李志斌强调,其中夹杂了个人的主观合理猜测,但也经过一系列的结果验证,最终才体现在预测结果中。他还表示,实际上,在参数中,还涉及到社会组织方式、管理模式、社会信息透明度等问题,所以他在预测中也会把结果设定为悲观或乐观。
雷锋网注意到,如果按照李志斌在在 4 月 4 日给出的悲观预测结果,他对美国感染人数的总体预测准确率高达 96%。
李志斌对美国感染人数的预测(悲观),准确率高达 96%
不过,在专访中,尽管有人为参与,但李志斌还是强调了数据在决策中的绝对地位。他表示,即使是抛开疫情不谈,在一个日常的决策过程中,数据的重要性可以说是百分之百的;这些数据不仅仅要真实,而且要全面,还要透明,即使在后续过程中有人的参与,也是要基于这些数据判断而来的——数据,正是决策的基础。
那么,基于数据的决策,有多大的覆盖面呢?
李志斌认为,即使是新冠肺炎疫情这样的颇具偶然性、又包含政治、经济等复杂社会因素的群体性公共事件,也是可以预测的。
他表示,类似于传染病的情况,它的发展存在着一种特定的模式(Pattern),偶然之中有规律在,我们也许无法掌握 100% 准确的规律,但是在一定的规律占比下,我们依然可以做出一些判断和决策——当然前提是巨大的有效数据量。
由此,李志斌还谈到了一个有趣的比喻:
一只大船和一只小船,在突然遇到冰山时,它们势必要拐弯;但相对来说,大船的结局显然更具有可预测性。小船一下子就改过来了,但大船的体量太大,有一个惯性,因此它有更大的可能性撞上冰山——这个惯性就是规律,而船的体量本身,就是数据量。
数据量越大、数据越准确、相关信息越透明,这种群体性事件发生的时候就越容易预测、且预测越准确——李志斌最后如是说。