Apa itu Susur Galur Data / Data Linage ?
Susur Galur Data atau Data Lineage adalah sebuah proses mengenal pasti aliran data anda dalam sebuah organisasi. Ia membantu kita memahami:
Asal usul sesuatu data
Bagaimana data tersebut diproses
Di mana destinasi data tersebut
Dengan memahami susur galur data sebuah organisasi, kita dapat check ketepatan dan ketekalan (consistency) sebuah data, justeru dapat memastikan kualiti data yang digunakan. Jika anda sedang ditanya: “Data jualan ini ambil daripada mana?”, tanpa susur galur data yang baik, tentu sekali anda akan terkapai-kapai mencari maklumat ini bukan?
Kenapa Organisasi Perlukan Susur Galur Data?
Data yang tepat amat penting dalam membuat sesuatu keputusan. Oleh kerana data berubah mengikut peredaran masa jadi amat penting untuk merekod siapakah yang membuat perubahan data, cara data diprosess dan bagaimana data tersebut digunakan. Ini dapat membantu
Membantu proses troubleshoot data isu. Sebagai contoh jika jumlah pelanggan yang catatkan tidak tepat, kita dapat mencari daripada sistem manakan data pelanggan tersebut diambil
Memastikan keselamatan data - Dengan susur galur data, sistem yang mengandungi data sensitif seperti PII ( Personally Identifiable Informatio) dapat dikesan dan langkah-langkah keselamat dapat diambil sebagai contoh menggunakan teknik masking untuk memastikan maklumat tersebut hanya boleh diakses oleh pihak yang tertentu sahaja.
Mewujudkan maklumat yang lebih lengkap - jika sistem anda merakam maklumat pelanggan daripada beberapa sistem. Anda dapat mengumpul dan mencantumkan pelanggan seperti alamat atau email untuk membina pengkalan maklumat yang lebih baik dan lengkap.
Memudahkan migrasi data - dengan mengetahui lokasi sumber data, ia memudahkan proses data migrasi.
Teknik Susur Galur Data/ Data Lineage
Berikut merupakan beberapa teknik yang boleh digunakan untuk membina susur galur data:
Susur Galur berdasarkan Pola ( Pattern-Based Lineage)
Teknik ini menggunakan metadata sesuatu objek dalam sesuatu sistem. Dengan memerhatikan metadata seperti 2 tables mempunyai column name yang sama dan data yang hampir sama, anda mencantumkan ia sebagai satu susur galur. Walaupun teknik boleh digunakan pelbagai database, namun teknik ini kurang tepat kerana sebahagian logik proses mungkin tidak dapat jelaskan
Susur Galur berdasarkan Tag Data ( Lineage by Data Tagging)
Teknik ini menggunakan tagging. Tag ini digunakan daripada mula pipeline hingga akhir pipeline. Cuma teknik ini lebih sesuai jika anda mempunyai alat transformasi data yang konsisten dan digunakan secara meluas. Jika ada transformasi data di luar alat ini, ada tidak dapat merakam susur galur tersebut.
Susur Galur berdasarkan Pola ( Self-Contained Lineage)
Teknik ini sesuai dalam system yang tertutup seperti Databricks atau AWS (Athena, Glue, S3). Ini kerana system ini merakam metadata semasa dalam data transformasi. Tidak perlu pening kepala kerana setiap perubahan susur galur data direkod oleh sistem ini.
Susur Galur berdasarkan Penghuraian ( Lineage by Parsing)
Jika anda suka “Reverse Engineering“ ini mungkin teknik pilihan anda. Dengan teknik ini anda mendapatkan logik daripada pelbagai proses transformasi (ETL logik, SQL Procedures, etc).
Baiklah itu sahaja perkongsian saya. Kongsikan alat dan pengalaman anda membina data lineage. Salah satu tools yang baik adalah Datahub. Ia adalah open source tools.