您当前的位置是:  首页 > 技术 > 企业通信 > 技术 > 数据网络 > 技术动态 >
技术 - 企业通信 - 数据网络技术频道
  首页 > 技术 > 企业通信 > 技术 > 数据网络 > 技术动态 > AWS正式推出数据湖管理工具Lake Formation

AWS正式推出数据湖管理工具Lake Formation

2019-08-12 13:56:20   作者:   来源:CTI论坛   评论:0  点击:


  Lake Formation可以将不同来源的数据移入数据湖中,并对数据进行爬梳、编目和整理,以利後续分析使用
  AWS在去年re:Invent 2018大会上介绍的数据湖管理工具AWS Lake Formation,现在推出正式版,用户可以使用AWS Lake Formation对数据进行撷取、清理、分类、转换以及保护的工作,方便後续分析或是机器学习使用。
  AWS提到,只要企业开始使用数字格式的数据,那就可能需要建立一个数据仓储,从CRM或是ERP等营运系统收集数据,并给其他决策支援系统使用,这些数据包括未组织的原始数据、日志、图片、影片或是扫描的文件等,而这也是数据湖的概念,将所有数据以各种规模与形式,储存在中央储存库中。
  而AWS新推出的数据湖服务Lake Formation,能简化数据湖的管理工作,用户可以使用中央控制台,处理建置和配置数据湖繁杂的工作,包括载入不同来源的数据、监控数据流、设定数据分区、加密和管理金钥,以及格式转换与监控营运等工作。
  只要在Lake Formation中指定数据来源,系统就会自动从数据库和物件储存撷取数据,并将这些数据储存到Amazon S3数据湖中,以适当的大小与方式整理,增加存取效能,并以机器学习演算法清理和分类数据,为敏感数据提供存取保护。
  用户还可以使用Glue ML Transforms删除数据湖中重复的数据,提高後续分析数据的效率,避免因为重复的数据,造成分析工作的混淆。AWS提到,这项工作并非单纯透过键值比对,就能找出重复的数据,很多情况需要进行模糊比对,像是当用户需要在不同表格查询类似的项目时,就需要使用模糊连接(Fuzzy Join),在不共用唯一键值的两个数据库表格查询相似数据。
  在保护数据存取方面,用户可以在Lake Formation中,定义精细的存取政策,保护Glue Data Catalog中的元数据,以及储存在Amazon S3的数据,AWS提到,在数据湖中管理存取权限是一件复杂的任务,因为数据的各种特性,包括结构化与否、敏感性或是可存取的数据范围不一,而Lake Formation赋予用户以IAM使用者、角色、群组和AD来管理数据存取,也能够拒绝表格特定的科目被存取。
【免责声明】本文仅代表作者本人观点,与CTI论坛无关。CTI论坛对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。