上一篇:没有了

下一篇:把握好这三个阶段,汽车...

清华讲坛|国双大数据助力政府进行科学决策

【发布时间:2017-07-04】

  6月27日,国双受邀参加清华-青岛数据科学研究院&大数据产业联合会举办的政府政务大数据应用讲座。政府事业部咨询总监唐喆向与会嘉宾和清华大学的同学们分享了国双在政务大数据,尤其是政务知识库应用领域的探索与实践,并提出,构建政务知识库,最终要实现的是将数据和信息转化为知识的输出,有效推动政府部门形成基于数据进行科学决策的工作模式。

 

 

  本次讲座是清华大数据“应用·创新”系列讲座的一部分,唐喆和清华大学公共管理学院教授、清华大学国家治理研究院执行院长、清华大学电子政务实验室主任孟庆国一起作为演讲嘉宾,共同探讨大数据在政府政务中的设计与应用。作为清华大学校友的国双CTO刘激扬,为本次讲座致了开幕词。

 

 

  近年来,以大数据为核心的新一代信息技术对政府治理产生越来越重要的变革性影响。可以预见,大数据发展和应用将掀起政府治理创新的又一轮浪潮,并带来政府治理模式的重大转型。唐喆的演讲从技术应用的角度分享了两个项目案例和一个综合解决方案,展示了如何将基于大数据的政府知识库,逐步从一个行业应用,扩展到领域应用,最终影响和改变政府的工作模式。

 

知识贯通推动政府治理现代化

  唐喆指出,大数据应用的核心是挖掘价值,是一个从数据到信息,再到知识,最终到达智慧的过程。而这也是政务知识库应用的内在动力,政务知识库一定是与业务需求密切相关的伴生性系统。

 

 

  国双为国家安监总局建设的政府垂直行业知识库,提供了基于安全生产事故数据的准实时统计和精准检索,还提供了多维度的安全生产事故态势分析。最核心的是构建了基于本体和关联规则的全国安全生产监督管理语义网络,并据此,运用自然语言处理技术将汇聚到的过往安全生产事故历史信息进行细分分类,进一步做出情感判断和相似性判断。最终,帮助使用者快速找到历史同类事故信息,而且推荐出所有相关信息,最大程度地辅助相关人员进行参考性处理,使得相似事故在处理和宣传口径上能够保持统一的尺度。这是围绕特定的行业需求,构建的政府垂直行业知识库应用。

 

知识融合打造国家新型智库

  中国资深的改革智库——中国(海南)改革发展研究院(简称中改院)和国双联合建设的“中国改革信息库”是横跨多个行业,面向一个领域构建的政府领域知识库应用。改革领域包罗万象,涉及到政府的各个部门,再加上社会对改革的看法和认知,组成了体量巨大的信息生态网络。“如果将安监总局知识库比喻成一棵大树,那么,中国改革信息知识库就是一片浩瀚的原始森林,不仅有繁多的树木,还有动物和河流贯穿其中。”唐喆比喻道。中国改革信息库在如下四个方面取得了领域性突破。

 

 

  第一个是“多渠道数据融合”。要基于基础大数据平台,融合超过1000家的互联网渠道数据,完整复刻中改院20多年沉淀的各类改革信息成果,还要能够对接外部智库数据,并保证未来数据可持续扩展的能力。这几乎是目前可见的信息系统在数据整合方面的极限。

 

  第二是“知识库架构创新”。将全国改革信息划分为七个大类,下面又有近百项的细分分类。在业务分类之上,进一步叠加领域、人物、时间、事件、机构、地区等属性的交叉分类,并基于之间的关联规则,构建出了多领域本体的中国改革知识图谱。在信息展现方面,同样打破常规,采用了“领域分类”+“属性筛选”的方式。

 

  第三个突破是“自动分类”。改革领域信息分类的标准不唯一,例如一篇报道里约奥运会的经济效应的文章,既包括了体育又包含着经济,还有可能包含政治方面的内容。国双的解决办法是采用基于“受限制玻尔兹曼机+长短期记忆人工神经网络”深度学习的方法。通过标准测试数据显示,这种方法在分类准确率方面能提升20%以上。

 

  最后一个突破是“自动摘要”。这方面,能够针对不同类型的文章,分别进行自然语言处理,给出最佳的自动摘要方法。

 

知识关联助力政府科学决策

  国双在政务知识库开展更深层次的探索,是希望通过政务知识库和知识的输出,有效推进政府部门形成基于数据进行科学决策的工作模式。唐喆分享了国双的大数据精准招商解决方案,其核心仍旧是知识库问题,即挖掘、匹配产业、园区和企业之间的关联关系。

 

 

  产品层面,首先围绕园区之间的竞争能力,综合园区产业、入/出园企业、政策/资源禀赋、招商动态等数据,进行科学评测,帮助园区自我认知,特别是和竞争性园区之间的优劣势比较。产业方面,主要是围绕发展潜力、吸引资本、前沿成果和地区活跃度等方面给出综合评价。再进一步从产业链生态视角,完善产业链数据,为园区定位产业方向、补全上下游企业提供决策支持。

 

  演讲最后,唐喆总结道,“构建政务知识库,核心是确定本体和关联规则,普遍应用到自然语言处理、机器学习、数据仓库等技术,最终实现的是将数据和信息转化为知识的输出。”