关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, 生成式AI, Delta Lake, Data Ecosystem, Real-Time Data, Data Quality, Data Governance, Data Management]
人工智能革命正在提高企业如何管理和使用云端数据的重要性。优秀的人工智能需要优质的数据,那些拥有丰富、管理良好的数据的组织在使用人工智能方面具有巨大优势。在本次会议中,Capital One分享了公司应如何考虑生产高质量、治理良好、易于查找、理解和使用的数据——最终推动加速人工智能用例的能力,以帮助解决具有挑战性的客户问题并创造真正的商业价值。本次演讲由亚马逊云科技合作伙伴Capital One为您带来。
以下是小编为您整理的本次演讲的精华。
在技术创新的领域,Capital One矗立为一座指路明灯,照亮了利用人工智能(AI)和机器学习(ML)力量的道路。在亚马逊云科技 re:Invent 2024大会上,Capital One企业数据组织的杰出领导者Marty Delino和Kajal Wood揭开了他们精心编织的数据生态系统的内在结构,为推动AI和ML能力的发展注入动力。
展开剩余91%经验丰富的工程副总裁Marty Delino首先阐述了Capital One在过去十年中的变革历程。他们怀着坚定的创新决心,大胆地从头重建了整个技术栈,采用开源技术,并成为API和微服务的先驱。这一大胆举措为他们后来迁移到云端铺平了道路,在那里他们全面拥抱亚马逊云科技,采用无服务器优先的策略,从而能够专注于交付价值,而不是管理基础设施和运营。
Capital One的努力结出硕果,成为第三大最具云端实力的亚马逊云科技客户,拥有数千名亚马逊云科技认证工程师。这种技术实力为重建现代数据生态系统奠定了基础,使其能够以前所未有的规模和实时性运行。通过整合企业平台,Capital One实现了规模经济,以DevOps的思维转型软件开发实践,实现随时随地部署。支撑这一转型的是由14,000多名才华横溢的技术人员组成的强大团队,这是Capital One成功的核心动力。
Marty Delino阐明了支撑Capital One AI和ML基础的三大支柱:灵活、弹性的技术栈;可扩展、良好管理的实时数据生态系统;以及精通数据、AI和ML应用细微差别的人才队伍。他阐释了AI与数据之间的相互关系:优秀的AI能够提供更加个性化和吸引人的客户体验,而这反过来又能产生更丰富的数据洞见,形成持续改进的良性循环。
深入探讨数据的复杂性,Marty Delino揭示了描述现代数据景观的三个V:数量(Volume)、多样性(Variety)和速度(Velocity)。数据量的惊人增长得到了2024年底全球将拥有147泽字节数据这一预测的印证。为了形象地说明这一庞大数字,Marty Delino生动地比喻道:如果将147泽字节的数据以纸张文本的形式堆叠起来,就足以横跨地球与火星之间的距离10,000多次,相当于200,000,000年的4K视频。
数据的多样性带来了另一项艰巨挑战,80%到90%的数据存在于非结构化形式,如视频、音频、图像和非结构化文档。这些庞大的非结构化数据不容忽视,因为它们蕴含着推动AI进一步发展的潜力。
数据的速度,即第三个V,在Capital One的数字化业务中显得至关重要。Marty Delino回顾了自己早期职业生涯的经历,当时偶尔会因为数据问题而被惊醒,但通常不会对客户产生重大影响。然而,在当今的数字化环境中,对实时数据访问的需求,有时甚至只是几毫秒,已经成为常态。无法实时提供准确数据将给客户留下持久的负面印象,这凸显了数据质量的至关重要性。
Marty Delino分享了一些令人震惊的统计数据,揭示了糟糕数据带来的阻碍。高达64%的数据和分析专业人士将数据质量列为首要的完整性挑战,而52%的IT专业人士在结构化数据的机器学习方面存在困难。即使是通常被视为更易管理的结构化数据领域,也存在障碍。此外,62%的IT专业人士认为实时数据访问是AI计划中需要重点关注的关键领域,这与一位同事的观点不谋而合,他主张“完成”的定义应包括能够为任何客户体验、产品、功能或平台实时发出数据。
最令人震惊的是,68%的组织内部数据由于缺乏价值、重复或可发现性问题而未被利用,这代表着一个重大的错失商机。
Marty Delino进一步阐明了数据生命周期的复杂性,在数据生态系统中的多次跳转可能会削弱数据线索、质量标准和一致的服务级别协议(SLA),从而破坏对数据本身的信任。
强调优质数据是优质AI的基础,Marty Delino概述了生产和消费高质量数据的三项指导原则:自助服务、自动化和规模。他强调要赋予数据社区工具、访问权限和可发现性,以便有效上传和利用数据。自动化对于执行数据质量检查、实施SLA和收集数据线索至关重要,而规模也不可或缺,因为面对AI对数据的无穷无尽的需求,单点解决方案终将力不从心。
Marty Delino随后深入探讨了Capital One的数据生产者体验,重点关注负责发出实时数据(如用户登录、交易、账户更新和Web日志)的应用程序工程师。入职流程包括几个关键步骤,包括数据注册、架构设计和审批、类似于软件开发生命周期的审批流程,以及数据供应。
自助服务门户在抽象复杂性、自动化诸多任务(包括供应存储和访问、配置Kafka主题、设置分析环境和更新目录)方面发挥了关键作用。Marty Delino阐释了控制平面,这是一组服务,用于配置数据集、应用数据质量规则、转换数据,并确保在处理万亿级事件和PB级数据的规模下的服务质量,这是一个关键考虑因素。
Capital One的技术栈利用了无服务器架构,采用了应用程序负载均衡器(ALB)、在主动-主动配置中的Route 53、Lambda用于计算、DynamoDB用于存储,以及Simple Notification Service (SNS)、Simple Queue Service (SQS)和Lambda的组合用于内部通信。Step Functions服务在编排和同步供应和管理数据集所涉及的复杂步骤时发挥了宝贵作用。
然而,仅创建控制平面是不够的。Marty Delino强调了两种实现标准化和规模自动化的方法:中央平台方法(数据通过API发布,由平台管理)和联合模型(专为大型Spark数据管道量身定制,采用专门构建的SDK来实施治理,同时让数据社区控制基础设施和Spark)。
一致性是Capital One数据治理战略的基石,确保无论是中央化还是联合模型,都能够坚持高水准的数据管理和质量。
Marty Delino随后揭示了Capital One用于规模化数据治理的中央平台。无论是发出实时数据的应用程序开发人员,还是运营数据存储,都可以通过API调用或批量文件提交来发布数据。由API前端、Kafka和Spark组成的数据平面促进了数据流向多个存储环境,而控制平面则提供了必要的配置和治理规则。
前端层执行架构检查、数据质量检查和轻量级转换,而Spark层则负责处理大型批量数据文件的繁重工作。关键的是,数据平面会将可观察性数据反馈给控制平面,确保及时的数据生产、数据线索生成和数据质量遵从性,这些都是以毫秒计的实时用例中的关键因素。
从亚马逊云科技架构的角度来看,Capital One采用了ECS Fargate来实现高可用性和高容量API处理,将数据卸载到面向消费者的Kafka以实现低延迟消费。Kafka被证明是一种高度可靠、高可用性和低延迟的解决方案,可以大规模实时移动数据。
对于批量数据管道,Capital One利用S3存储桶进行数据着陆,并使用运行Spark的EMR进行处理。一组Lambda监控并供应EMR集群,根据SLA要求确保最佳的服务质量和成本性能权衡。
联合模型专为大型Spark数据管道而量身定制,与中央平台方法使用相同的控制平面。但在这种模型中,数据生产者拥有Spark专业知识,直接与Capital One的数据湖合作。一个专门构建的SDK充当平台的扩展,从控制平面收集配置、实施治理,并将数据写入数据湖,同时提供反馈循环来监控管道成功情况。
为了解决未使用SDK而运行的不合规数据生产者的问题,Capital One在构建和部署管道中引入了治理措施。代码lint和一个特殊的治理服务确保Spark数据管道遵守规定的SDK用法,在中央化和联合模型之间保持数据治理的一致性。
随后Kajal Wood登场,将重点转移到数据消费者体验和Capital One的数据湖战略,以实现共享数据访问。这一战略奠基于三个关键原则:将计算引入数据湖以最小化存储扩散,采用开放表格式如Delta和Iceberg以支持类SQL操作,并实施区域策略以满足特定用例需求。
Kajal Wood详细阐述了Capital One数据湖平台的一系列功能,包括供应服务,用于识别独特的S3前缀并维护数据集位置的系统记录;访问管理服务,利用亚马逊云科技安全令牌服务(STS)令牌授予临时读写访问权限;以及与监管要求、安全标准和第三方合同协议相一致的生命周期策略。
Capital One标准化使用S3智能分层,通过利用经常访问、不经常访问和归档层实现了大量成本节省。此外,他们开发了一种自定义解决方案,用于归档整个数据集,最小化热存储和冷存储之间的碎片化,而无需依赖亚马逊云科技 Glacier。
跨区域复制(CRR)在确保数据处于活动状态并可跨区域访问方面发挥了关键作用,复制时间控制使得在专用存储的支持下,数据湖内的SLA可达15分钟或更短。
接下来,Kajal Wood重点介绍了两种关键的消费者体验:数据科学家和机器学习工程师。对于数据科学家,Capital One的企业机器学习平台提供了自助服务功能,可为快速实验和原型设计供应个人和协作空间。自动化服务授予读写访问权限,而生命周期策略则根据模型开发生命周期阶段进行应用。
敏感数据区域和非敏感数据区域的架构经过精心设计,每个区域都有专用的亚马逊云科技账户,中间区域则促进了它们之间的安全数据流动。敏感数据区域采用了额外的安全措施,包括安全密钥客户端和服务端加密,而非敏感区域则遵循不同的安全要求。
对于机器学习工程师,Capital One的低延迟平台实现了高可用数据的快速检索和存储。用户可以通过自助服务体验配置适合特定用途的DynamoDB表,数据摄入由Kafka用于流处理,Step Functions用于批处理。跨区域复制和基于延迟的路由API允许跨区域进行活动读写访问。
最后,Marty Delino和Kajal Wood强调了四个关键要点:简化数据生产者和消费者的体验、构建大规模执行和自动化机制、实现快速实验以及确保数据的可信赖性和治理。
Capital One的旅程彰显了创新、坚持和对利用AI和ML的变革潜力孜孜不倦追求卓越的力量。通过精心打造的数据生态系统,他们为数据统治的未来铺平了道路,推动智能系统的发展,提升客户体验并推动业务成功。
下面是一些演讲现场的精彩瞬间:
Marty Delino,作为Capital One的工程副总裁,负责大规模的数据管道、数据治理和关键的实时数据平台。
亚马逊云科技旨在通过将计算引入数据湖并最小化存储扩散,简化数据管理,从而允许用户利用S3并简化其数据消费体验。
采用支持事务日志和插入、删除、更新等操作的开放表格式Delta和Iceberg,这解锁了超越传统Parquet文件的新功能。
演讲者强调了在数据湖架构中“区域策略”的重要性,允许为特定操作、访问控制和治理策略量身定制专门区域。
Capital One的能力使数据科学家能够为模型开发配置个人和团队空间,并为模型治理提供自动化的数据访问和生命周期策略。
Capital One的企业数据平台提供了一个低延迟平台,用于快速检索和存储高可用性数据,使用户能够通过自助服务体验配置适合特定用途的DynamoDB。
演讲者强调快速实验是第三个关键要点,强调快速行动的能力,例如数据科学家快速配置存储以进行模型构建和训练。
在这个引人入胜的叙事中,我们踏上了一段探索Capital One转型数据生态系统的旅程,这个生态系统精心打造,旨在发挥人工智能和机器学习的威力。故事从介绍Marty Delino和Kajal Wood两位身处这一努力前沿的远见卓识领导人开始展开。
Marty回顾了Capital One在过去十年中令人瞩目的技术演进,从传统银行机构转变为云原生、无服务器优先的强大机构。这一转型为开发出一个强大的数据生态系统铺平了道路,使其能够以前所未有的规模和实时运行。他强调了数据质量、治理和管理在实现有效的人工智能和机器学习应用中的关键作用。
接着,Kajal登场阐述了Capital One创新的湖策略,这是他们数据存储和消费需求的基础。她深入探讨了这一方法的支撑原则,包括将计算引入湖中、采用开放表格式以及实施适用于特定用途的区域策略。Kajal还强调了一套赋能数据科学家和机器学习工程师的能力,促进快速实验和流畅体验。
随着叙事达到高潮,演讲者们强调了关键要点:简化体验、实施自动化和扩展机制、实现快速实验以及在数据治理和可访问性方面坚持不渝的可信赖性。这个引人入胜的故事让我们深受启发,见证了Capital One对创新的不懈追求,以及他们致力于发挥数据和人工智能的变革潜力。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。
发布于:新加坡捷希缘配资提示:文章来自网络,不代表本站观点。