This is the Trace Id: 4ee7b8930f0ec303ce546a2554415e7f

Apa itu data lakehouse?

Dapatkan gambaran umum mengenai manfaat dan proses implementasi data lakehouse.

Definisi data lakehouse

Data lakehouse adalah arsitektur manajemen data terpadu yang mengombinasikan fitur data lake dan gudang data, sehingga penyimpanan serta analisis data yang terstruktur dan tidak terstruktur dapat dilakukan. Data lakehouse mendukung penyerapan data yang fleksibel, analitik tingkat lanjut, serta pembelajaran mesin, sekaligus memastikan keamanan data dan performa yang dioptimalkan.

Poin penting

  • Dapatkan gambaran umum mengenai model data lakehouse dan mengapa ini penting dalam lanskap berbasis data masa kini.
  • Jelajahi manfaat data lakehouse, termasuk skalabilitas, peningkatan keamanan, performa yang lebih baik, dan dukungan untuk berbagai analitik data.
  • Pelajari tentang komponen utama yang membentuk arsitektur data lakehouse.
  • Dapatkan panduan langkah demi langkah mengenai cara terbaik untuk mengimplementasikan arsitektur data lakehouse.
  • Lihat bagaimana organisasi terkemuka di dunia menggunakan arsitektur data lakehouse untuk meningkatkan performa.

Gambaran umum mengenai data lakehouse

Organisasi berbasis data masa kini senantiasa mencari cara inovatif untuk memfungsikan data mereka. Salah satu kemajuan terkini adalah data lakehouse, kerangka kerja arsitektur yang tanpa kendala menggabungkan kecanggihan data lake dan gudang data ke dalam satu platform. Dengan model ini, organisasi dapat menyimpan data terstruktur, semi-terstruktur, dan tidak terstruktur dalam jumlah besar, yang kemudian dapat organisasi gunakan untuk memroses, menganalisis, dan memperoleh wawasan tanpa memerlukan transformasi data ekstensif.

Data lakehouse merupakan hal krusial bagi strategi data modern karena sifatnya yang cukup fleksibel untuk mendukung berbagai macam kasus penggunaan. Data lakehouse memampukan tim data untuk menjalankan kueri kompleks dan model pembelajaran mesin secara langsung dengan menggunakan data mentah, sehingga memudahkan bisnis dalam memperoleh wawasan dan mendorong pengambilan keputusan di tengah lingkungan yang semakin berbasis data. Data lakehouse juga memudahkan Anda dalam menghubungkan aliran data, meniadakan silo dan memupuk kolaborasi yang lebih baik—sekaligus memelihara fitur yang amat penting seperti tata kelola data, keamanan, dan performa.

Manfaat data lakehouse

Skalabilitas dan fleksibilitas manajemen data

Data lakehouse dapat diskalakan tanpa kendala untuk mengakomodasi volume data yang terus berkembang dalam berbagai tipe data, memberikan ketangkasan bagi bisnis untuk beradaptasi dengan lanskap data yang berubah-ubah.

Microsoft OneLake di Fabric adalah data lake terbuka yang dapat diskalakan tanpa batas, menyerap data terstruktur dan tidak terstruktur, serta memroses data dalam jumlah yang sangat besar sekaligus mengoptimalkan performa di seluruh mesin analitik.

Fitur peningkatan tata kelola data dan keamanan

Data lakehouse menggabungkan langkah-langkah keamanan yang tangguh untuk melindungi data sensitif. OneLake, misalnya, menggunakan alat keamanan dan tata kelola yang terdepan di industri, untuk memastikan kualitas data organisasi Anda, dan bahwa hanya orang-orang tepat yang memiliki akses tepat untuk data tersebut. Ini akan membantu organisasi Anda untuk tetap mematuhi regulasi industri dan terlindungi dari akses yang tidak sah.

Efektivitas biaya dan efisiensi performa

Melalui penyimpanan cloud yang efektif dari segi biaya serta pemrosesan data yang dioptimalkan, data lakehouse menawarkan solusi terjangkau untuk menyimpan dan menganalisis data dalam skala besar, baik terstruktur maupun tidak terstruktur. Microsoft Fabric semakin mengurangi biaya dengan menyediakan penyimpanan dan kumpulan kapasitas tunggal yang dapat digunakan untuk semua beban kerja.

Dukungan untuk berbagai aplikasi pembelajaran mesin dan analitik data

Data lakehouse memberi ilmuwan dan analis data kemampuan untuk menjalankan analitik data streaming secara real time, sehingga organisasi dapat merespons dengan cepat dan proaktif saat kondisi yang berubah-ubah muncul. Beban kerja seperti Inteligensi Real Time Fabric dapat menyerap dan mengubah data streaming, membuat kueri secara real-time, dan merespons dengan memicu tindakan.

Arsitektur data lakehouse

Arsitektur data lakehouse terdiri dari sejumlah komponen utama yang bekerja bahu-membahu, menciptakan sistem terpadu untuk mengelola dan menganalisis data. Berikut ini adalah perincian mendetail masing-masing komponen:

1. Penyerapan. Lapisan penyerapan bertanggung jawab untuk mengumpulkan data dari berbagai sumber, termasuk database, aplikasi, perangkat IoT, serta API eksternal, baik batch maupun real-time. DenganPabrik Data Fabric, Anda dapat mengimplementasikan aliran data dan pipeline untuk menyerap, mempersiapkan, dan mentransformasikan data pada kumpulan sumber berjumlah besar. Lapisan ini memastikan, bahwa semua data yang relevan—terstruktur, semi-terstruktur, dan tidak terstruktur—tersedia untuk analisis, memberikan perspektif komprehensif mengenai lanskap organisasi.

2. Penyimpanan. Lapisan penyimpanan berfungsi sebagai fondasi data lakehouse, menangani data mentah bervolume besar dengan menggunakan solusi penyimpanan yang scalable dan hemat biaya. Lapisan ini membuat data dapat disimpan dalam format mentah, mengakomodasi berbagai jenis data, seperti teks, gambar, dan video, sekaligus menyingkirkan kebutuhan akan skema yang kaku sehingga data menjadi lebih scalable.

3. Metadata. Lapisan metadata membuatkan katalog aset data dan memelihara informasi skema, memastikan kualitas data untuk pembentukan kueri yang efisien. Tim data dapat memahami konteks dan struktur data yang mereka gunakan, menghasilkan wawasan yang lebih efektif.

4. API. Lapisan API menyediakan antarmuka yang digunakan oleh pengembang, analis data, dan ilmuwan data untuk mengakses serta berinteraksi dengan data. Lapisan ini krusial karena memungkinkan berbagai aplikasi dan pengguna untuk bekerja menggunakan data, tanpa memerlukan pengetahuan teknis mendalam tentang arsitektur yang mendasarinya.

5. Konsumsi. Lapisan konsumsi mencakup alat serta platform yang memberi masing-masing pengguna kemampuan untuk menganalisis dan memvisualisasikan data. Lapisan ini menyertakan alat inteligensi bisnis (BI) seperti Power BI, serta beban kerja pembelajaran mesin dan ilmu data sepertiIlmu Data Fabric, yang memakai data yang tersimpan di lakehouse. Lapisan konsumsi mengubah data mentah menjadi wawasan yang dapat ditindaklanjuti, memberdayakan pemangku kepentingan di seluruh organisasi untuk membuat keputusan berbasis data.

Mengimplementasikan data lakehouse

Jika Anda memigrasikan data ataupun menyiapkan solusi baru sepenuhnya, implementasi data lakehouse melibatkan beberapa langkah penting. Berikut ini adalah gambaran umum langkah demi langkah mengenai prosesnya, termasuk pertimbangan utama:

1. Berikan penilaian untuk lanskap. Pertama, Anda perlu mengidentifikasi semua sumber data yang telah ada, termasuk database, aplikasi, dan feed eksternal. Untuk memahami persyaratan penyimpanan, Anda perlu mengategorikan data yang ada dalam sumber sebagai terstruktur, semi-terstruktur, atau tidak terstruktur.

2. Definisikan persyaratan dan tujuan. Berikutnya, sangat penting untuk mengurai tujuan dengan jelas, ini akan membantu Anda dalam menentukan kebutuhan berdasarkan pertumbuhan dan volume data yang telah diantisipasi. Untuk melindungi data sensitif, Anda juga sebaiknya mengidentifikasi persyaratan kepatuhan yang perlu dipenuhi.

3. Pilih jenis tumpukan teknis. Pilih solusi penyimpanan cloud atau lokal yang mendukung kebutuhan data lakehouse Anda, kemudian evaluasi opsi untuk pemrosesan dan analitik data. Anda juga perlu memilih alat yang akan digunakan untuk pembuatan katalog, tata kelola, dan pelacakan silsilah data.

4. Bangun strategi migrasi Anda. Untuk meminimalkan gangguan saat mengembangkan strategi migrasi, Anda perlu merencanakan migrasi bertahap, dimulai dari data yang tidak terlalu penting. Anda harus mengevaluasi kualitas data, mengidentifikasi tugas pembersihan atau transformasi yang diperlukan, dan menetapkan strategi cadangan untuk memastikan integritas data.

5. Buat pipeline. Setelah Anda menetapkan strategi migrasi, saatnya menyiapkan proses untuk sumber-sumber penyerapan data real time dan batch dengan menggunakan API. Untuk mempermudah penyerapan data lebih lanjut, Anda mungkin berniat mempertimbangkan implementasi alat automasi, seperti Microsoft Power Automate, untuk mengurangi intervensi manual.

6. Konfigurasikan manajemen penyimpanan. Saat mengonfigurasi sistem penyimpanan, Anda perlu melakukannya sesuai struktur yang telah didefinisikan untuk setiap tipe data. Anda perlu menetapkan praktik manajemen metadata untuk memastikan bahwa data dapat ditemukan, Anda juga perlu mendefinisikan izin akses serta protokol keamanan untuk melindungi data.

7. Tetapkan kerangka kerja analitik. Di sini, Anda perlu menghubungkan alat analitik dan inteligensi bisnis, seperti Power BI, untuk pelaporan dan visualisasi. Anda juga perlu menyuplai pengembang dengan kerangka kerja, alat, serta titik akses yang diperlukan untuk pembelajaran mesin dan analitik tingkat lanjut.

8. Pantau, optimalkan, dan selenggarakan iterasi. Setelah implementasi selesai, Anda perlu menilai performa secara rutin, mengevaluasi kemampuan penyimpanan dan pemrosesan, dengan menggunakan fungsionalitas pemantauan menyeluruh seperti yang ditemukan dalam Microsoft Fabric. Anda juga sebaiknya menetapkan mekanisme umpan balik dengan pengguna untuk mengidentifikasi area yang perlu diperbaiki dan dioptimalkan.

Contoh data lakehouse

Organisasi terkemuka di dunia menggunakan arsitektur data lakehouse untuk mengoptimalkan penggunaan data mereka, meningkatkan pengambilan keputusan, dan mendorong inovasi di seluruh operasi. Berikut adalah beberapa contoh implementasi yang sukses dan patut diperhatikan:

1. Satu sumber tepercaya
Perusahaan rantai pasokan makanan yang berbasis di Belanda, Flora Food Group, berupaya menggabungkan sejumlah alat analitik ke dalam satu platform tunggal yang lebih efisien, sehingga mereka mengandalkan Fabric untuk menyatukan pelaporan, rekayasa data, ilmu data, dan saluran keamanan ke dalam satu solusi. Dengan menghubungkan semua aliran data, perusahaan ini dapat menyederhanakan arsitektur platform, mengurangi biaya, serta menawarkan wawasan yang lebih mendetail dan tepat waktu kepada pelanggan, sehingga meningkatkan penyediaan layanan dan kepuasan pelanggan.

2. Analitik lanjutan dan pembelajaran mesin
Melbourne Airport, bandara terbesar kedua di Australia, perlu memutakhirkan kemampuan analitik data mereka untuk meningkatkan efisiensi operasional dan pengalaman pelanggan. Dengan mengadopsi Fabric, organisasi ini dapat menggabungkan data dari banyak sumber data, termasuk sistem parkir, penjualan, dan sistem operasional bandara, serta memperluas akses ke wawasan berbasis data untuk pengguna bisnis teknis dan non-teknis. Sebagai hasilnya, bandara ini telah memperoleh peningkatan efisiensi performa sebesar 30% di seluruh operasi terkait data.

3. AI dan pembelajaran yang matang
Sasaran perusahaan inovasi digital Avanade adalah meningkatkan proses pengambilan keputusan strategis di dalam organisasi mereka dengan menggunakan teknologi AI. Dengan menyatukan estat data menggunakan Fabric serta memberikan pelatihan analitik data untuk lebih dari 10.000 karyawan, Avanade mendirikan landasan bagi para pengguna untuk mengadopsi AI secara lebih mudah. Pengguna dapat menggunakan keterampilan yang mereka pelajari untuk mengembangkan solusi AI yang dikustomisasi, termasuk berbagai dasbor yang dibangun berdasarkan bahasa alami dan Copilot di Power BI.

4. Wawasan real time
Dener Motorsport, penyelenggara utama Porsche Carrera Cup Brasil, ditugaskan untuk menyediakan data komprehensif dan terkini mengenai performa serta perbaikan mobil bagi para insinyur dan pelanggan. Dengan mengadopsi Fabric dan mengimplementasikan fitur analitik, penyimpanan, serta pelaporan real-time, organisasi ini dapat memberikan dukungan yang lebih baik bagi para pemangku kepentingan, dengan menggunakan wawasan yang dapat ditindaklanjuti dan real-time. Pada sebuah balapan belum lama ini, para insinyur bahkan mampu mengidentifikasi mesin yang gagal pada mobil balap Porsche, sehingga mereka diperintahkan untuk mengeluarkan mobil tersebut demi keselamatan.

Kesimpulan

Lanskap analitik data yang terus berkembang


Didorong oleh pertumbuhan data yang pesat, serta meningkatnya permintaan wawasan real-time, semakin banyak organisasi yang beralih dari gudang data tradisional ke solusi yang lebih fleksibel.

Dengan memfasilitasi ketangkasan yang lebih baik, skalabilitas, efisiensi operasional, serta kolaborasi di antara tim data, data lakehouse membuat bisnis mampu mewujudkan potensi data sepenuhnya. Dengan mengatasi silo dan menyediakan akses yang lebih mudah ke berbagai jenis data, data lakehouse memampukan organisasi untuk berinovasi dan merespons perubahan pasar secara cepat—menjadikan data lakehouse hal yang amat penting untuk manajemen data modern.

Mulai gunakan coba gratis Fabric

Berdayakan organisasi Anda dengan Microsoft Fabric—platform analitik serta manajemen data terpadu untuk mendorong transformasi dan inovasi di era AI.

Mulai gunakan dengan cara yang sederhana dan mudah. Anda tidak memerlukan akun Azure tetapi dapat mendaftar langsung di platform Fabric.

Pelajari selengkapnya
Sumber daya

Sumber daya tambahan

Jelajahi alat, sumber daya, dan praktik terbaik yang dirancang untuk membantu lakehouse data Anda meraih kesuksesan.
Seorang laki-laki yang berjanggut dan berkacamata dengan tangan terangkat.
Sumber daya

Tur terpandu Microsoft Fabric

Lihat bagaimana Anda dapat menggunakan Fabric untuk menyatukan semua data dan menjalankan analitik real time pada satu platform tunggal.
Seorang laki-laki dan perempuan berdiri di depan layar besar.
Mitra

Mitra Microsoft Fabric

Bawa data Anda memasuki era AI dengan bantuan ahli dari mitra Fabric berkualifikasi.
Tampilan jarak dekat wajah seorang perempuan dengan rambut merah dan keriting.
Seminar Web

Seri Seminar Web: Perkenalan tentang Microsoft Fabric

Tonton seri ini untuk mempelajari tentang pengalaman dan manfaat utama dari Microsoft Fabric, sebuah solusi analitik yang menyeluruh.

Tanya Jawab Umum

  • Tidak seperti gudang data tradisional yang utamanya menangani data terstruktur dengan sangat terorganisasi, data lakehouse memungkinkan penyerapan serta pemrosesan data yang lebih fleksibel dengan mengakomodasi data terstruktur, semi-terstruktur, dan tidak terstruktur dari berbagai sumber.
  • Data yang ada di dalam data lakehouse dapat digunakan oleh berbagai pemangku kepentingan di dalam sebuah organisasi, termasuk analis dan ilmuwan data, profesional inteligensi bisnis, serta pengambil keputusan, untuk memperoleh wawasan, mengambil keputusan yang tepat, dan mendorong nilai bisnis.
  • Hub data adalah repositori pusat yang menyatukan data dari berbagai sumber untuk tujuan pelaporan dan inteligensi bisnis. Data lakehouse adalah platform yang lebih komprehensif, menyimpan data terstruktur, semi-terstruktur, dan tidak terstruktur untuk mendukung wawasan real-time, pembelajaran mesin, dan bentuk-bentuk analitik tingkat lanjut lainnya.
  • Data mentah di dalam data lakehouse biasanya disimpan dalam format native, tanpa modifikasi atau transformasi, dalam sistem file terdistribusi seperti Apache Hadoop. Data mentah ini memungkinkan fleksibilitas dan skalabilitas yang lebih tinggi saat bekerja dengan data yang beragam dan bervolume besar.

Ikuti Microsoft Fabric