<address id="tfbvx"><listing id="tfbvx"><menuitem id="tfbvx"></menuitem></listing></address><em id="tfbvx"></em>

<form id="tfbvx"></form>

    <noframes id="tfbvx">
        <noframes id="tfbvx">
        Top
        首頁 > 正文

        迎接混合數據時代:Cloudera的數據產品化思路

        Cloudera讓企業管理者用數據驅動的思維更加聚焦于管理成本和運維成本
        發布時間:2022-09-28 16:42        來源:賽迪網        作者:賽迪網

        【賽迪網訊】今天的企業處于數據爆炸的時代,不僅結構化的數據量在暴增,非結構化的數據量甚至經歷了更夸張的陡增。據統計,從2011年到 2020 年的十年時間里,結構化數據從不到1ZB增長到了近14ZB,而非結構化數據、云數據和機器數據更是猛增到50ZB數據。在這個數據爆炸的時代,跨平臺混合數據是企業數據存儲的必然選擇趨勢。

        所謂混合數據,是Gartner提出混合集成平臺(HIP)而衍生的概念。這種混合集成平臺的優勢是利于打破企業、公共管理組織里不同部門的數據孤島,讓數據實現共享流通,更有利于實現數據驅動的生產、管理。根據Gartner的估計,到2022年底,全球65%的組織將布署混合集成平臺。而Cloudera正是一家致力于提供混合數據集成平臺服務的大數據服務商。

        產品化的數據網格

        近日,在Cloudera媒體溝通會上,Cloudera大中華區技術總監劉隸放對Cloudera在混合數據領域的企業定位做了明確的申明。用他的話說,Cloudera是一個適用于數據編織、數據湖庫和數據網格和未來數據生態系統架構要求的混合數據平臺。

        微信截圖_20220928163818

        “數據網格”(Data Mesh)是在業內一些測評公司里流行的熱詞之一,通常是和DDD(Domain-Driven Design,領域驅動設計)聯合在一起構成的產品。面對混合數據的發展潮流,構建未來數據生態系統架構,需要把數據與產品思維進行融合。在任何一個企業或公共管理組織中,其下屬的業務部門對自己掌握的數據一定是最為清楚的。為了便于各部門自己調用所需的數據,去中心化是大勢所趨。對于提供混合數據集成平臺的服務商來說,就是要把數據提供為一個產品,部門之間以產品的方式進行調用,數據平臺就是滿足這種自助化需求的工具,在不同域(部門)里實現跨平臺自助式操作數據。

        對于數據網絡的產品化思路,ThoughtWorks公司的工程師Zhamak Dehghani在2019年5月發表的一篇強調數據網格基礎的論文可供參考。在Zhamak Dehghani的論文中,他把數據網絡的特征總結為四項原則: 領域所有權原則、數據即產品原則、自助數據平臺原則和聯合計算治理原則。

        所謂領域所有權原則也就是去中心化,所謂數據即產品原則也就是把數據與產品思維進行融合,自助數據平臺原則就是打造混合數據集成平臺實現云、跨平臺自助數據操作,而最后一項聯合計算治理原則則是在去中心化前提下,在管控上又滿足集中管控。最后一項也至關重要,去中心化不代表無政府主義,如果沒有集中的管控,會形成很多數據煙囪,IT部門各自為政,安全體系也漏洞百出。因此真正行之有效的混合數據集成平臺是既去中心化,也集中管控。具體來說,Cloudera是通過SDX(共享數據體驗)幫助客戶在實現跨云,在不同的存儲上做到數據的統一安全管控和治理。

        自動化的數據編織

        所謂數據編織(Data Fabric)是通過數據的關系發現數據溯源,找清數據從哪兒來到哪兒。在過去,主要采用人工的方式進行數據溯源,而在現在數據量越來越大,跨平臺混合數據更多的情況下,采用機器學習、自動方式進行數據溯源就更為必要。根據Gartner的研究分析,隨著數據變的越來越復雜,數據業務的加速發展,數據編織的終極目標是為了數據的集成和訪問提供一種更靈活、無縫的自動化方式進行數據平臺構建。

        Cloudera的數據編織正是基于上述構想,采用人工智能進行數據編織的數據治理。而且和一般的被動型人工智能手段不同,不是用機器學習從加工處理完的數據中,用統計學的算法找出一些規律,而是自下而上地推廣人工治理的方式,通過主動的原數據構建,在整個生命周期的每一個環節里實現智能的數據治理。

        簡便快捷的湖倉一體

        傳統的數據倉庫是由上至下的系統。通過數據倉庫的主題模型,數據在入庫時根據主題模型進行預處理,然后存儲到盤上。當需要進行查詢時,因數據已經預處理過,所以會讓查詢的性能達到極致。但其缺陷是運維成本比較高,且因為系統處于漸變狀態,沒有一種固定的模式能夠適應長期的發展需求,所以企業在構建自己數據倉庫的時候永遠會遇到需要調整模式以適應未來的發展,每一次調整都需要花很大的代價,數據的靈活性存在缺陷。

        而數據湖則是另一種由下至上的系統。通過把數據全部吸收到平臺里,需要查詢時采用Schema on read(讀時模式)。當遇到一個需要被處理的問題時,在讀數據的時候系統根據未來產生的報表或者計算需求進行加工處理。這種模式相對來說預處理工作更少,而在做報表的時候則需要花一些時間處理,其時效性就更差。

        湖倉一體(Data Lakehouse)就是兩者的結合,把由上至下和由下至上兩種技術融合在一起,互補所短。通過支持數據的增刪改查,可以提供更好的算力,減少數據冗余,增加成本效益,支持更廣泛的工作負載,易于數據版本控制、治理和安全性。因此,湖倉一體可以根據需求快速響應用戶的需求,而不像數據倉庫,要從最前端做模式的調整,造成成本高昂,因而可以最快滿足業務部門的需求。

        綜上所述,Cloudera的服務就是通過數據網絡、數據編織和湖倉一體,讓企業CEO、CIO、CTO等管理者用數據驅動的思維更加聚焦于管理成本和運維成本,在企業不同業務部門的組織架構下,平衡不同部門對數據的所有權。Cloudera的優勢也正是幫助企業通過混合數據集成平臺建立數據驅動的文化,以產品的方式支持企業做數據驅動轉型,從降本增效的角度幫助客戶在最佳形態下執行數據分析。

        專題訪談

        合作站點
        stat
        老师穿丝袜被弄高潮在线观看

        <address id="tfbvx"><listing id="tfbvx"><menuitem id="tfbvx"></menuitem></listing></address><em id="tfbvx"></em>

        <form id="tfbvx"></form>

          <noframes id="tfbvx">
              <noframes id="tfbvx">