在本文中,我们探讨了如何通过 AWS 的解决方案如 AWS Glue、AWS Data Exchange、AWS Clean Rooms 和 Amazon DataZone来构建企业数据平台,促进数据共享与协作。我们分析了各类业务场景,例如销售与客户可见性、跨组织的供应链和库存管理、以及交叉销售与追加销售机会,以便有效应对组织内部及第三方数据的挑战。
数据是任何组织最重要的资产。然而,企业往往面临数据孤岛、访问控制不足、治理不善和质量问题等挑战。将数据视为产品是应对这些挑战并构建数据驱动文化的关键。在这种背景下,采用数据湖和数据网格框架成为了一种有效的方法。通过去中心化的数据所有权和分布方式,企业能够打破孤岛,实现无缝的数据共享。
AWS 提供多种服务,例如 AWS Data Exchange、AWS Glue、AWS Clean Rooms 和 Amazon DataZone,以帮助组织充分释放数据的潜力。
我们首先确定数据共享过程中的不同角色:
数据生产者 包括内部团队/系统、第三方生产者和合作伙伴。数据消费者 包括内部利益相关者/系统、外部合作伙伴和最终客户。
在这个生态系统中,企业数据平台是核心。当考虑到企业时,有众多角色涉及:
一旦确定了不同的角色,就需要选择合适的工具:
让我们来审视一些示例场景,以了解这些多样化服务如何有效应用于业务上下文,实现期望的结果。以名为 AnyHealth 的公司为例,该公司在医疗保健和生命科学领域运营,专注于销售各种科学设备。我们识别了三个关键需求:
下面详细讨论如何满足这些需求以及与之匹配的 AWS 服务。
满足第一项需求需要获得按业务线划分的销售与客户需求的可见性。此数据的主要用户包括业务线领导、业务分析师以及其他业务相关利益相关者。
最初的步骤是将销售和订单数据导入到平台中。当前,这些数据集中存储于 ERP 系统特别是 SAP。目标是定期检索这些数据并捕获任何变化。数据工程师在建立此数据管道中发挥了关键作用。考虑到这是 SaaS 集成,AWS Glue 是无缝数据导入的合适选择。
接下来,构建企业数据平台,存储累积的数据。通过 Amazon DataZone 确保数据的可搜索性,而施加必要的安全和治理措施以实现选择性共享。数据安全官创建企业域、生产者项目并为数据工程师和业务分析师启用访问权限。
AWS Athena 和 Amazon QuickSight 被用于查询和生成报表,确保业务用户和其他利益相关者能获取所需的信息。下图展示了使用 AWS 服务的解决方案架构。
第二项需求是实现跨组织的供应链和库存可见性。这里的关键利益相关者是业务线用户。他们希望跨组织访问供应链和库存数据。
与第一项场景类似,数据工程师使用 AWS Glue 设置数据管道以从 ERP 系统如 SAP定期获取数据,以及捕获供应链与库存数据上的任何更改。通过 AWS Data Exchange 获取经济指标和天气信息,以及在 COVID19 期间供应链的管理,都是 AnyHealth 需要关注的要素。
Amazon DataZone 被用来管理数据湖,确保数据的编目和治理。类似于前面的场景,数据安全官创建生产者项目和消费者项目,以管理对跨组织供应链和库存数据的访问。下图展示了这一架构。
第三项需求是识别交叉销售和追加销售机会。此处的主要消费用户为销售代表和转售商。AnyHealth 在全球范围内运营,产品销售涉及多个大洲。
交叉和追加销售机会可以通过机器学习模型识别,并通过 Amazon DataZone 与 Salesforce 等客户关系管理系统集成。在此过程中,AWS Clean Rooms 则用于与转售商共享数据分析,以加强合作却不泄露底层信息。
以下架构展示了如何通过 AWS 服务进行交叉销售和追加销售机会的识别与实现。
接下来,我们来看一个包罗所有三个用例的完整架构。该架构利用了 AWS Data Exchange、AWS Glue、AWS Clean Rooms 和 Amazon DataZone 等目的明确的服务。这些服务的无缝集成共同实现了端到端的业务目标。
为增强云基础设施的安全性,建议使用 AWS 身份与访问管理 (IAM),允许您创建具有具体权限的用户、组和角色。此外,可以使用 AWS 密钥管理服务 (AWS KMS),帮助您创建、管理和控制用于保护数据的加密密钥,以便仅授权用户可以访问敏感信息。为确保合规性,您可以使用 AWS CloudTrail,记录您 AWS 账户内的 API 调用。
在本文中,我们讨论了如何选择合适的工具以构建企业数据平台,并在组织内部以及与第三方提供者之间实现数据共享、协作与访问。通过 AWS Glue、AWS Data Exchange、AWS Clean Rooms 和 Amazon DataZone,我们针对三个不同的业务用例进行了深度分析。
要了解更多关于这些服务的信息,欢迎查看 AWS 博客,如 Amazon DataZone,AWS Glue, AWS Clean Rooms,和 AWS Data Exchange。
Ramakant Joshi 是 AWS 解决方案架构师,专注于分析和无服务器领域,拥有软件开发和混合架构的背景,热衷于帮助客户现代化其云架构。
Debaprasun Chakraborty 是 AWS 解决方案架构师,专注于分析领域,具有约 20 年的软件开发和架构经验,热衷于支持客户进行云采用、迁移和策略制定。
标签:Amazon Athena、Amazon S3、分析、AWS Glue