乍暖还寒且待春:推进数据开放共享,建设有国际竞争力的中国大数据企业

乍暖还寒且待春:推进数据开放共享,建设有国际竞争力的中国大数据企业优质

7月9日,由上海白玉兰开源开放研究院、上海交通大学人工智能研究院主办,励讯集团参与协办的2021 WAIC·AI时代数据开放共享创新论坛在上海世博中心举行。本次论坛以数据开放共享和应用实践为主题,邀请多位业内学者及行业领袖共话AI时代数据开放共享的机遇和未来。  思考  去年以来,中央层面多次释放促进大数据产业发展利好政策,为何我国数据开放共享的现状依然“乍暖还寒”?  目前地方政府数据开放有一定积极的进展,但是开放出来的数据价值普遍不高,症结何在?  政府数据是否就应该免费开放、还是“数”有所值?  会上,励讯集团中国区高级副总裁张玉国发表了以“加快数据开放共享,培育有竞争力的中国大数据企业“为主题的演讲,试就以上问题、与所有关心我国大数据产业发展的行业专家与各界人士进行探讨。  以下为演讲原文,欢迎阅读。  大家上午好!非常荣幸有这个机会和大家一起探讨学习交流。  我有一个看法:衡量中国数字经济发展是否健康成熟,其中一个很重要的标志是要出现一批有国际竞争力的专业大数据企业。励讯集团就是这样一家跨国企业,专门从事大数据专业信息服务。在“大数据”这个词出现以前,我们就靠数据(及内容信息)“吃饭”,算起来已经有400多年了。今天,我想利用这个机会向在座的各位汇报一下,从一个大数据企业的角度,我们是怎样看待数据要素的开放和共享的。   首先请允许我向大家介绍一下励讯集团。我们是一家B2B的企业,在场的可能有一些老师对我们还不是特别熟悉。励讯集团归纳起来可以总结为三个特点:首先是历史悠久,品牌优秀。励讯这个名字可能并非令人耳熟能详,但是提到我们旗下的专业学术品牌,很多人都非常了解:比如《柳叶刀》,创刊于1823年,属于集团旗下的科技和医学板块;风险业务有农业领域的《农民周刊》,创刊于1934年,以及航空领域的《国际飞行》,创刊于1909年;集团旗下的爱思唯尔在1638年出版了伽利略的《两个世界系统的对话》。凡此种种,不胜枚举。  第二个特点是大数据能力突出。我们的四个业务板块在长期的发展中积累了大量的数据,尤其是风险和商业分析业务。此外,我们还拥有自主研发的开源大数据处理平台HPCC,即High Performance Computing Cluster,高性能计算集群,可以快速处理海量的结构化和非结构化数据,为客户提炼出有效洞见。  第三个特点尤为重要,那就是对华友好。励讯集团是改革开放以后最早进入中国的外资企业之一。举两个例子,我们在1985年出版了《邓小平文选》的英文版并且进行海外发行;2009年又出版了江泽民总书记的两本科技著作,海外发行效果也非常好。2009年法兰克福书展,励讯集团CEO还作为外资出版商代表,受到了当时国家领导人的接见。  数据开放共享的障碍  作为这样一家专门做大数据的企业,对中国目前数据开放共享的感受是怎样的呢?所谓如鱼饮水,冷暖自知。我们的感受是最真切的。我认为从整体来看,我国数据开放的进展还是非常不错的,尤其是在去年4月份中央发布文件,将数据纳入生产要素。这个文件就像一阵春风,我当时还专门写过一篇文章,说大数据产业的春天就要来了(点击斜体字复习~),而目前正是“乍暖还寒时候,最难将息。” 但是在现实中,数据开放共享还有很多障碍。我常常开玩笑说,励讯集团在中国就像一个身怀高超厨艺的米其林三星大厨,到了菜市场却没人敢把食材卖给他。而且这个问题不仅仅是外企会遇到,对国企和民企来说,可供获取的开放数据也非常有限。  那么,究竟是哪些困难导致了这种“乍暖还寒”的状态呢?中国信通院的一位专家总结的好,那就是“三不”:不敢、不愿、不会。“不敢”就是怕出事。“不愿”就是感觉数据能够带来利益,为什么要分享给别人?“不会”就是还没有建立起数据开放共享的专业能力。最近,国家信息中心的几位作者发表了一篇文章,谈到政府数据开放共享:“政府数据壁垒尚未有效破除。随着国家大数据战略纵深推进,社会各界都认识到了数据的价值,但少数部门把数据视为其‘私有财产’,认为‘奇货可居’,更加不愿与人共享,加剧了数据共享问题,个别部门和地方依然存在‘本位主义’思维,死抱着数据不放,导致决策研判受到影响。”   但我认为,最大的障碍是“不敢”。前不久,中国信通院发布了《数据价值化与数据要素市场发展报告》,其中有一组数据将七年来各地方数据中心发展的盛衰做了分期对比,一共分为三个时期:  2014-2016,井喷式爆发期;  2017-2019,发展停滞期;  2020-现在,重获新生期。  2014-2016之所以呈现井喷式爆发,是因为中央将大数据写入了政府工作报告,促进了大数据产业的蓬勃发展,各地纷纷建立数据交易中心。2017-2019年,因为众所周知的原因,发展的势头踩下了急刹车。社会上甚至有种极端的说法叫“谈数色变”。到了2020年4月,中央发布《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》,将数据纳入生产要素。这无疑是给大数据产业打了一剂强心针。  但目前的整体态势还是呈现一种纠结的状态:一方面,中央政策已经非常明确,数据被视为重要的生产要素,大家都知道数据重要,口头上都在提发展大数据产业、数字经济。从各地纷纷举办的大数据、人工智能、数据经济研讨会,也可以略见一斑。但另一方面,又担心出问题,害怕担责任。数据开放得慢一点,顶多批评我工作进取性不够,但是一旦出现数据安全事故,这个责任谁负?数据开放共享的实质性推进方面,步子还比较慢。  其实,纵观历史,每一种新技术的诞生都曾经历过质疑、不解甚至是误解。比如,白宫首次安装电灯时,当时的美国总统Benjamin Harrison (1833-1901)因为担心触电不敢碰开关[1],现在看来实在是杞人忧天;再比如,电话、电报刚发明的时候,当时很多人认为它们是导致神经衰弱的主要原因[2];还有火车,公众最开始认为火车会导致神经错乱,还有一个专门的医学词汇叫铁路神经症(railway neurosis)[3]。由此可见,新技术刚出现时总不免遭遇质疑,这是一个正常的历史过程,不该因为担忧、恐惧就制约它的发展。  图片来源:https://www.americanheritage.com/terror-trains  地方政府数据开放共享的成绩与现状  李克强总理曾经在座谈会上讲过:“目前我国信息数据资源80%以上掌握在各级政府部门手里,‘深藏闺中’是极大浪费。”我认为这是非常现实的情况,大部分有价值的数据都掌握在政府和公共企事业单位手里。当前我国地方政府数据开放共享的情况,我认为有这样几个特点。  从整体来看,各地政府都高度重视数据开放,发展的脚步非常快,尤其是在过去的三、四年间,开放数据平台从2012年的几乎为零发展到2020年的142个。此处可以参考复旦大学郑磊老师团队发布的《中国地方政府数据开放报告》,里面的数据非常详细。取得成绩的同时也存在一些不足。  第一是数据的总量差异很显著。有的地方开放的数据集数据目录十几万个、二十几万个,有的几万个,有的甚至就几十个、几个。有一半以上的地方开放的有效数据集量还不足100个。  第二是开放数据的质量不高。普遍存在的问题有:高缺失、低容量、碎片化,以及接口调用难度高、可调取到的数据容量小、更新频率低等。  第三,也是我认为更严重的问题,就是开放数据的价值不高。数据要成为生产力,必须能够为企业所用。据我们的观察,很多地方的数据平台开放的数据价值不太高,比如:汽车维修企业的名单、婚姻介绍所的名单地址,这些都属于政府信息公开,并非高价值的可供分析利用的数据。复旦大学郑磊老师也说过,要提供“有温度的数据”,就是真正能为人所用的数据,而不是冷冰冰的、低价值甚至无价值的信息。数据开放共享与政府信息公开不是一回事,政府信息公开主要是满足公众的知情权,而要发展大数据产业,必须提供高价值、可供分析使用的数据。  第四是有效应用成果不多。也可以说,正是由于前三个原因,导致了应用成果不够。  那么和国外对比,情况又如何呢?此处以励讯集团为例。我们在美国市场从一万多个数据源收集数据。这些数据主要来自于四个渠道:  公共数据:来自政府和公共机构开放的数据,比如破产记录,法院案件记录。  购买数据:如美国三大征信公司的个人征信数据,水电煤气缴费记录等。  共享数据:我们在美国有14个共享平台,如保险领域,通过共享平台汇集保险公司的数据统一进行分析挖掘,产生洞察,为整个行业提供服务。  自有数据:我们有很大的自有平台,上面每天产生的访问信息、用户的行为模式都可以收集分析,产生洞察。 图:励讯集团在美国市场从一万多个数据源收集数据  这些数据的体量有多大呢?我前面提到,我们的风险和商业分析业务拥有海量的数据,包括14亿条银行破产的记录、56亿条个人拥有的财产的信息、243亿条保险的信息,等等。   图:励讯集团风险与商业分析业务的海量数据构成  在2018年,我们又收购了一个叫ThreatMetrix 的初创公司。ThreatMetrix通过终端设备认证、身份信息识别、行为模式分析,用户创建 “独特的“数字身份” ,从而识别潜在欺诈。这些用于分析的原始数据都是很敏感的信息,也是价值非常高的数据。但只要做好数据安全和隐私保护,这些都是可以善加利用的资源。通过对如此巨大体量的数据进行关联分析,我们可以为社会带来价值,比如预防欺诈和网络犯罪、促进普惠金融、预防金融犯罪等。  思考与建议  最后,我想为中国数据开放共享提出几点建议:  第一是解放思想,敢为天下先。思想是行动的先导。在解放思想这方面,我感觉上层做得好,中层和下层还不够。中央政策已经非常明确,剩下的就是执行和推进。  第二是开展试点,逐步推广。改革开放当年也是 “摸着石头过河”,时代最终证明了我们的成功。如果一件事情我们不能百分百有把握,先做几个试点——何妨一试?励讯集团非常愿意和中国同行一起建设发展中国的大数据产业。  第三就是激励措施,揭榜挂帅。人对压力会产生反应,人对激励也会产生反应。在数据开放共享难以实质性推进的时候,迫切需要有激励性措施。政府机构、政府官员也需要激励。他们的工作压力已经很大了,更多地要考虑如何提供激励。  比如,最近某地公布的数据条例,其中有一条说希望政府数据全部免费公开,我本人对这条持保留意见。如果全部免费的话,政府哪来动力做这件事?政府的数据就一定不能收费吗?励讯集团在美国市场上一万多个数据源获取数据,其中很多都是政府拥有的数据,我们也需付费,最典型的是从50个州获取的交管数据。问题的关键不在于政府拥有的数据能不能收费,而是在于收上来的钱会如何被使用。最好不是保证“程序正义”,而是保证“结果正义”。我曾经写过一篇文章《数据开放共享十大误区》,专门谈过这个问题。  目前,很多地方政府都在采取积极的创新措施推进数据开放,比如广东最近实施了一个新举措,设立首席数据战略官制度,这就是敢为人先,长久来看必能带动数据开放共享的发展。  春寒虽然料峭,但是毕竟不足以阻挡春天的脚步。我国数字产业蓬勃发展的标志就是能够出现一批具有国际竞争力的中国大数据企业,我们期待早日看到市场蓬勃发展、百花齐放的那一天。励讯集团愿与各位一起,共同迎接中国大数据产业的“春花烂漫时”!  参考资料:  [1]https://wireworkscoinc.com/2016/07/when-was-electricity-widely-used/  [2]https://listverse.com/2015/10/11/10-unnecessary-fears-people-had-of-everyday-things/#:~:text=4%20Electricity,and%20interestingly%2C%20cure  [3]https://www.americanheritage.com/terror-trains  张玉国  张玉国自2012年起担任励讯集团高级副总裁。此前的五年间任爱思唯尔(励讯集团子公司)中国区总裁。2010年他创立了在华国际出版商版权保护联盟(IPCC)并担任常任主席。加入励讯集团之前,曾供职于中央某机关,从事出版管理工作长达 12 年。2002 年至 2003 年,曾以访问学者身份赴加拿大参加“中加学者交流项目”(CCSEP),先后在渥太华大学和西蒙·费雷泽大学(SFU)学习。主要研究领域为文化产业与文化政策,曾出版《国家利益与文化政策》、《文化产业与政策导论》和 《文化多样性与人类全面发展》(译作)等著作。

更多热门推荐:
分享到 :
相似文章

发表评论

登录... 后才能评论