——马歇尔。麦克卢汉,思想家

大数据和人工智能正以前所未有的态势汹涌而来。一方面是风投和创业创新,坚信大数据和人工智能是下一个尚未被开垦的宝地;另一方面是应用,比起概念盛行的阶段,现在的AlphaGo、AR/VR、疾病预测、精准营销等已经把大数据和人工智能技术带到了“看得到摸得着”的境地。
反观国内,虽然大数据领域的建设如火如荼,但项目多以解决传统数据处理技术性能瓶颈,以及利用数据统计进行探索性分析为主。真正利用机器学习、人工智能技术进行数据挖掘,还未形成通用行业标准,但这正是大数据未来发展的重要方向。
机器学习(ML)与人工智能(AI)
人工智能(Artificial Intelligence,缩写为AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学,是计算机科学的一个重要分支,也是大数据领域不可忽视的一个发展方向。可以预见,未来的大数据系统势必会变得更加智能,我们的生活也势必因为AI带来巨大的改变。而机器学习(Machine Learning,简称ML)作为人工智能研究的核心问题,也备受关注。该子学科是实现人工智能的重要途径之一,也推动了人工智能、人机互补的进步。未来,人工智能(AI)、商业智能(Business Intelligence,简称BI)、机器学习(ML)都将成为我们生活中的重要工具,在机器人、经济政治决策、控制系统、仿真、生物基因等领域发挥巨大作用。
和石器、铁器、指南针、火药、互联网一样,机器学习是一种工具,促进人类的进步。人类正是不断制造和改进工具,才有了今天的发展和繁荣。不断改进和发展是相关联的,也即所谓永不满足、进取精神。
DataEngine大数据平台 开创机器学习新篇章

(新华三 DataEngine 大数据平台)
新华三集团基于对市场的敏锐触觉和前瞻性的研究,于近日发布了DataEngine大数据平台,致力于为用户提供挖掘大数据金矿的高效工具。
DataEngine大数据平台对用户来说,最有趣也最有价值的服务,就是在数据挖掘和机器学习方面,基于底层数据平台推出的ML可视化服务,让机器学习变得简单易用。
ML可视化服务能带给用户舒畅灵动的数据挖掘体验,轻松拖拽就可以完成机器学习,对用户零代码技术要求,快速上手。并且可以基于Hive数仓和Spark引擎,让机器学习更加高效。
下面,以一个实际的操作案例,带你进入ML可视化服务的奇妙之旅。

(ML可视化服务欢迎界面)
ML可视化服务 绘画出数据价值
以预测个人年收入为例,通过历史个人数据训练预测算法,来预测人们的年薪,是否高于5w美元。首先,准备好相关的历史训练数据,这里选择了关于个人信息和年收入的3万行数据进行训练(训练数据越大,机器学习算法的精确度会越高)。这些数据包含个人信息的15个维度特征值,以及其最终年收入情况。
值得一提的是,Data Engine大数据平台能够支持最丰富的数据库类型。这些数据来源可以是在Hadoop的HDFS或者Hive组件里面,可以是CSV数据格式的文件,也可以来自类似Orcale的传统关系型数据库。

(第一步,历史训练数据准备)
第二步,通过简单的拖拽进行机器学习整体流程图的绘制。充分体现了H3C DataEngine大数据平台ML可视化服务的强大之处,这里我们选用了回归算法中的分类树进行历史数据的训练,配合预测器进行其他个人的年收入预测。值得一提的是,机器学习的算法选择实在是一门艺术,并非越复杂的算法精确度越高,只有和业务场景适配的算法,才能事半功倍。这也体现出数据分析师的价值,需要对业务有深入了解且不断反复调整优化。当然,这也是他们拿到高薪的原因。其次,工具的用户体验也是立身之本,ML可视化服务的易用简便让数据挖掘真正做到了“化繁为简”。

(第二步,画布上,绘出机器学习整体流程)
第三步,输入待预测的数据到预测器中,可以直接看到最终的显示结果。
最终输出的收入分析图非常有意思,该图显示,总体来说年龄在40岁左右的年收入较高。但其中独树一帜的黄色,则表示如果是20岁左右的自由职业者,同时是拥有一个公司的创业者,年收入大于5w美元的比例最高。

大数据挖掘、机器学习(ML)、人工智能(AI)让数据会说话,而ML可视化服务让机器学习像在油画布上作画一样灵动便捷,让高深的技术,“飞入寻常百姓家”。
新华三集团
新华三集团(简称新华三)是全球领先的新IT解决方案领导者,致力于新IT解决方案和产品的研发、生产、咨询、销售及服务,拥有H3C品牌的全系列服务器、存储、网络、安全、超融合系统和IT管理系统等产品,能够提供大互联、大安全、云计算、大数据和IT咨询服务在内的一站式、全方位IT解决方案。同时,新华三也是HPE品牌的服务器、存储和技术服务的中国独家提供商。