您当前的位置是:  首页 > 技术 > 企业通信 > 文摘 >
当前位置:首页 > 技术 > 企业通信 > 文摘 > 中国信息通信研究院何宝宏: 预见大数据的2018

中国信息通信研究院何宝宏: 预见大数据的2018

2018-04-19 09:32:02   作者:   来源:CTI论坛   评论:0  点击:


  4月18-19日,为期两天的“2018大数据产业峰会”在北京国家会议中心隆重召开。本次会议由中国信息通信研究院主办,旨在进一步落实《促进大数据发展行动纲要》和《大数据产业发展规划(2016-2020年)》,支撑大数据国家战略落地,展示大数据产业发展成果,探讨发展面临重大问题,推动产业交流与合作。
  中国信息通信研究院云计算与大数据研究所所长何宝宏在首日会议上作“预见大数据的2018”主题报告,以下是内容实录:
  中国信息通信研究院云计算与大数据研究所所长 何宝宏
  大家下午好!我研究20多年的互联网,现在主要在禅修如何为互联网技术相面。在座如果感兴趣可以联系我,共同探讨互联网发展规律。哲学问题很有意思,可以让你们少走弯路。
  大数据从2011年至今7年的时间,也该七年之痒。我个人的观点,技术在7年的时候至少要换一种说法,7年不能总讲一个故事。2011年麦肯锡下一个前沿,2012年纽约时报大数据时代降临。
  经过多年发展,大数据正在遭遇成长的烦恼,最近行业有点烦。某个耿直BOY说中国人大多数情况下愿意用隐私交换便利性。欧盟5月份实施GDPR通用数据保护规则,核心是个人隐私数据,要求用户明确同意与数据的流动权。用户数据追求精益数据小型化,很明显的要求。最近的大数据在杀熟,Facebook遭遇窘境,包括今日头条也遭遇窘境。技术必须有变化进行方向性的调整。这是又一个三角困境,技术上追求很多目标时,目标之间容易出现冲突。尤其数据方面,个人隐私、国家安全、便利性三者不可都得,只能选择两个。2013年奥巴马讲到,不可能既享有100%的安全,又享有100%的隐私,而且没有丝毫的不便,我们不得不做出选择。大数据也需要做出选择,二选一时会发生一些调整。
  这些事件意味着什么?短期看,一些大数据应用真正落地。如果大数据在用户画像及营销没有落地,事情不会发生。反向证明大数据真的已经成功应用,所以才能出现问题。几年前搞云计算可靠性不行,我说恰恰是人们开始广泛使用云计算,要不然不会关心问题。中期看,保护个人隐私必然是未来3年或更长时间内的工作重中之重,全行业必须团结就有效的保护用户隐私制定规则,需要恰当地技术手段提供支持。长期看,最近一系列事件的爆发是不是意味着已经使用20多年的互联网免费模式选稿终结。恐怕这是更大的议题,免费模式都是使用用户数据换取用户服务的便利性。
  个人判断,行业发展需要调整(变化)。从过去7年时间强调技术、发展,下一步更多的关注合规、隐私保护、安全。任何产业发展到第二阶段必须要强调关注合规性、安全及隐私问题,早期会重点关心技术与发展。正在从几年来高估大数据的影响开始转变为低估大数据的影响,人总是会高估技术短期影响,而低估技术的长期影响。我们即将迎来开始低估大数据长期影响的阶段,现在进入回归理性阶段,行业正在回归理性。对大数据以前高估的价值更加理性,以前不太关注的隐私必须补课,需要3年左右的时间。2021年前后会迎来新一轮的黄金发展期。
  从市场看,我们还将继续维持规模小增速快的态势。过去的几年大数据的主要应用场景是互联网,未来几年的核心是大数据与传统行业、实体经济的深度融合。十九大报告讲的很清楚,我们必将迎来的是跟传统行业如何更好使用大数据的过程,因为传统行业更容易赚钱。
  从技术看,排在第一的是开源,开源正在引领各行各业,大数据不例外。分布式,今天上午报告也讲到实现在线分析的分布式,下一步需要实现在线处理事物的分布式。OLAP/OLTP的融合是新的趋势。随着产业的发展完善,意味着产业的分工越来越细,相互之间的协作会越来越麻烦。反推的结果是我们所做的大数据产品与技术需要标准化、模块化,越来越模块化。因为不可能做庞大体量堆在一起,运维需要自动化比较好理解,我们越来越庞大。机器产生的事情只能用机器解决,大数据产生的运维问题只能靠大数据产生的自动化运维解决。容器化,今天的大数据也需要借助容器的思想封装交付。几年前发现软件开发交付等跟环境关系过于密切,是不是今天看到大数据也是这个问题。大数据迁移时与环境配置的关系过于密切,我们应该发面向技术类似于容器的技术。专用硬件,随着摩尔定律的减速,越来越多的需要靠一些专用的而不是通用的硬件解决问题。面向特定场景数据处理的专用硬件或软硬件结合会是重要的发展考虑的方向。
  从算法看,算法的透明度会成为需要关心的议题。今天看到虽然把数据开放使得数据透明,如果算法是黑箱还会出现你想干什么就干什么的现象。随着数据越来越多,数据越来越开放要打破算法黑箱,解决算法的歧视问题和算法杀熟问题。很多算法都一样,尤其金融市场会引发共振及算法移情问题。开放算法是必须要考虑的议题,刚刚讨论过网络中立问题。算法该不该中立?算法该不该透明?算法该不该监管?我想需要。
  从资产看,过去几年知道数据是资产,市场教育已完成。但如何把数据变成资产还在迷茫中,前几年想是否通过财务手段把数据变为资产,现在看是不够的,需要更多的技术支撑。未来三年要学习如何把数据变成资产,不仅通过资本与管理的手段,还需要新的技术,需要创新算法、创新技术、创新模式。
  从流通看,我们处于男耕女织的时代,今天调查50%的大数据企业使用的数据还是自己生产的或隔壁家生产的。大数据说是资产,但它没有变成资产。我们说大数据商品,但大数据没有变成商品。我们只知道大数据很有价值,但如何流通还处于早期的阶段,需要很多技术创新、理论创新。30年后得诺贝尔经济学奖的人一定会有是干这个活的,因为需要数字经济时代的数字经济学家。今天的经济学更多的建立在工业经济的假设之上,上来就讨论工厂、工人与产品,用货币衡量价值都是工业时代的思维。数字时代需要数字时代的经济学家解决数据流通存在的理论问题、方法问题。处于从农耕产品的贸易到数字产品的转折,现在不太清楚数据如何做贸易,我们正在探索之中。工业经济学正在从数字经济学跃迁。
  从价值看,需要新的用户,新的价值。数据保护问题更像隐私危机,我们说大数据是石油,石油也经历过危机,爱迪生危机。煤油的主要用途是照明,爱迪生发明了电灯后是不是石油面临危机?石油的用途只是照明,可是电灯来了。后来改善石油的冶炼技术,炼出汽油,更加广泛地用于动力。今天大数据主要面向人,面向人的大数据分析处理应用依然会带来隐私危机。只要知道的都是隐私,不知道的就不是隐私。凡是能够发现处理的最终都会被归于用户隐私范围内,必然会迎来隐私危机。我们需要新的模式与新的创新,将大数据的使用范围扩展,使用价值扩展。不仅仅面向人,可能要面向物联网、工业等各行各业。过去几年更多处理人产生的数据。
  从风险看,必然会出现风险,数据是资产,资产是数据。人类的财富正在虚拟化,正在数据化,意味着风险正在由物理世界、现实世界迁移到虚拟世界、数据世界。哪里有风险,哪里就有保险。信通院联合中国人保推出云计算的保险有四年的时间,希望与业界一起研究如何为数据买保险,如何通过金融手段解决数据面临风险问题。
  从理想看,万物皆数据,数据皆兄弟,我们需要连接。单个的孤岛数据价值不大,我们必须搞流通。我们是连接的时代,流通产生新的价值。现在不是单体重要,而是单体与别人之间的连接更加重要。数据的价值不取决于数据本身是什么,而取决于数据跟其它数据之间的关系是什么,位置是什么,在数据世界处于什么位置。连接比数据本身更重要,我们一定会连接起来。我们搞开放、共享的核心目的只有一个,让数据连接流通是长期的目标,需要与在座的诸位共同努力。
  当摩尔定律逐渐老去的时候,我们正在迎来摩尔定律老去的时代会不会死掉,不知道,但会越来越慢。摩尔定律减速的时候会对整个行业带来翻天覆地的变化,我们需要改变传统思维方式。以前觉得计算资源很便宜,浪费点没什么,今天的计算资源越来越贵,因为摩尔定律减速。以前行业的增速非常稳定,有节奏感,因为有摩尔定律什么也不干就摩尔定律稳定的让你增长。今天当摩尔定律减速甚至停缓的时候,行业当然会往前走,但不能紧紧依靠摩尔定律,我们要依靠软件。我们需要更新软件的结构,最近看到很多新的软件结构出现原因之一,底层计算资源不再符合摩尔定律增长速度,所以要创新软件与架构的设计。
  改进算法。以前不太关心算法的改进,因为算法改进付出的成本可能比摩尔定律芯片买一个更高。与其改进算法,不如再买芯片。今天必须改进算法,因为底下的计算资源越来越贵。算法优化成为未来几年非常重要的发展方向,包括大数据处理。因为底层资源再浪费不起。
  硬件。以前通用硬件非常广泛,通用硬件越通用价格越低,缺点是越通用的性能越差。硬件性能上不去只好优化硬件,而不再是通用的硬件。面向数据的软硬件结合是重要的发展方向。
  当大数据遇到区块链都是用来处理数据,一个是希望扩展数据的内心,结构化扩展到更多的数据结构。数据以前做信息,现在做价值,海量数据提高计算性能。区块链说针对关键数据,主要核心目的是为了防篡改,也有计算模式。把一件事分给多个人做,区块链希望多个人重复做一件事情,有利于防篡改。一个用的服务器积存,一个是用的P2P网络,一个数据是信息,一个数据是价值。大数据处理需要给做大数据的人发工资,因为激励是外部的。发币的时候可以内置,而不是通过外部的数据。大数据宣传的口号是相信数据,区块链的口号是相信数学。
  大数据遇到人工智能,大数据做数据的可视化,因为计算机把数据看明白了,可是人看不明白。计算机视觉,因为人看明白了,就是机器看不明白。一个往左一个往右,前几年宣扬大数据主张关联关系而不是因果关系,回到了愚昧的原始社会。机器学习能证明数据之间有关联,但机器学习为什么出现这样的结果无法解释。证明存在关联关系,但无法解释为什么有因果关系。当忘记成为例外,让机器忘记也是一种幸福。发明很多技术,核心目的就是记住,因为人的记性太差。你忘了黑客没有忘记,数据很久远,以上永流传。以前发表文章需要交版面税,今天删贴子试一试,遗忘权成为新问题。以前只关注如何记住问题,现在关注如何永久性的消灭数据是工程师新的发展机会。
  我们做很多数据,只关心数据从哪里来的,用完了以后数据去了哪里?大数据基本进冷宫,用完了就完了,80%的数据三个月以后无人理睬。GDPR隐私数据要灭绝,隐私数据的种族大屠杀。区块链数据价值得永生,因为是为了防篡改,数据世界的价值越高寿命越长。介质寿命,有的数据会莫名其妙地消失,不知道去哪里,因为介质的寿命很短。我们的磁盘长点就是几十年的寿命,今天存储的数据千年以后的人怎么找到,如何打开word文档。他们去哪里考古这代人所谓的大数据,到哪里发现?他们能认出表情包。
【免责声明】本文仅代表作者本人观点,与CTI论坛无关。CTI论坛对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

专题