Apa itu Data Quality
Mark Mosley (2008) mengatakan Data Quality adalah level data yang menyatakan data tersebut akurat, lengkap, terbaru, konsisten dan sesuai dengan semua kebutuhan bisnis.
Data Quality Characteristic
Data Quality
Pengujian ETL ini penting karena ETL membawa data dari sistem sumber ke dalam data warehouse. Jika ETL tidak benar, data dalam data warehouse akan salah. Jika data di warehouse yang salah, tidak peduli seberapa baik model data dan tidak peduli seberapa baik aplikasi tersebut, data warehouse tidak dapat digunakan. 3 komponen primary data warehouse :
Tujuan utama dari pengujian ETL:
Functional Testing
Uji fungsional adalah tentang memastikan bahwa semua kebutuhan bisnis memuaskan. Persyaratan bisnis adalah data dan kemampuan yang pengguna butuhkan dari data warehouse untuk melakukan tugas-tugas bisnis mereka, seperti kemampuan untuk menganalisis aktivitas pelanggan tertentu dengan kriteria tertentu, kemampuan untuk melihat data tertentu untuk periode tertentu, dan kemampuan untuk menelusuri data ke dalam tingkat tertentu untuk mengidentifikasi masalah bisnis.
Performance Testing
Kinerja pengujian memverifikasi bahwa semua kebutuhan teknis yang berkaitan dengan platform, kapasitas, latency, dan waktu respon yang memuaskan. Terutama anda perlu membuktikan bahwa sistem data warehouse ini mampu menyelesaikan proses data loading dalam jumlah waktu tertentu. Pengujian kinerja adalah penting karena ketika mengembangkan proses ETL, Anda menggunakan data dalam jumlah kecil. Anda sering fokus pada memastikan fungsionalitas proses ETL benar. Ada dua bidang utama untuk menguji kinerja dalam data warehouse. Area pertama adalah tentang ETL, dan yang kedua menyangkut aplikasi.
Security Testing
Pengujian keamanan adalah tentang memastikan bahwa hanya orang dan aplikasi yang diijinkan untuk mengakses data warehouse benar-benar dapat mengaksesnya. Selain itu, Anda juga perlu menguji bagaimana orang-orang mengakses data dalam data warehouse, seperti alat yang digunakan untuk mengakses data warehouse dan cara user menyediakan informasi rahasia keamanan.
User Acceptance Testing
Ini adalah di mana beberapa key user menggunakan data warehouse dan aplikasi untuk mengetahui apakah itu memenuhi kebutuhan user. User juga menguji keramahan user. Sebelum mereka mulai, Anda menjelaskan semua fungsi data warehouse dan aplikasi untuk pengguna. Anda berjalan melalui sistem, menjelaskan komponen dan arsitektur data flow, untuk membuat yakin mereka mengerti cara mereka masuk, keluar, dan sekitar sistem. Anda memberikan user dengan akses keamanan yang tepat dengan menciptakan akun user dalam aplikasi untuk mereka.
End-to-End Testing
Untuk melakukan pengujian end-to-end, membiarkan proses ETL data warehouse berjalan selama beberapa hari untuk mensimulasikan kondisi operasional. ETL batch berjalan secara otomatis. Tester adalah query data warehouse setiap sekarang dan kemudian dan menggunakan beberapa aplikasi front-end. Anda memeriksa bahwa tidak ada transaksi yang hilang, pelanggan, atau data lainnya. Anda memeriksa bahwa kualitas data bekerja dengan baik. Anda memeriksa bahwa tabel audit akan diisi. Anda memeriksa bahwa tabel ODS adalah populasi dengan benar. Anda memeriksa bahwa semua tabel fakta dan dimensi tabel di DDS akan diisi dengan benar. Anda memeriksa stage yang benar digunakan dan dibersihkan. Anda memeriksa aplikasi, laporan, cube, dan model mining. Ini seperti melakukan pemeriksaan terakhir dari segala sesuatu, tapi ini waktu ETL berjalan secara otomatis, makan data ke dalam data warehouse setiap sekarang dan kemudian sesuai dengan jadwal (harian, per jam, mingguan, dan sebagainya).
Mark Mosley (2008) mengatakan Data Quality adalah level data yang menyatakan data tersebut akurat, lengkap, terbaru, konsisten dan sesuai dengan semua kebutuhan bisnis.
Data Quality Characteristic
- Accuracy
-
Sejauh mana data dengan benar mencerminkan objek dunia nyata atau seperti yang di deskripsikan
- Accessibility
- Data dapat dengan mudah diakses, dan dimengerti, serta dapat digunakan sesuai dengan keperluan yang dibutuhkan
- Completeness
- Sejauh mana seluruh data yang dibutuhkan tersedia.
- Consistency
- Konsistensi data berarti bahwa data di seluruh perusahaan harus sinkron dengan satu sama lain
- Integrity
- Setiap data harus berhubungan atau dapat dihubungkan dengan data - data yang lain sehingga setiap data bisa saling terkait
- Timeliness
- Data harus merepresentasikan dengan waktu saat itu.
- Validiy
Data Quality
Data yang berkualitas dapat :
- Meningkatkan kepercayaan diri dalam melakukan analisis
- Meningkatkan kesempatan untuk menghasilkan value yang lebih baik bagi layanan
- Kebenaran yang sifatnya mutlak
- Meningkatkan produktivitas
- Meningkatkan kepuasan pelanggan
Pengujian ETL ini penting karena ETL membawa data dari sistem sumber ke dalam data warehouse. Jika ETL tidak benar, data dalam data warehouse akan salah. Jika data di warehouse yang salah, tidak peduli seberapa baik model data dan tidak peduli seberapa baik aplikasi tersebut, data warehouse tidak dapat digunakan. 3 komponen primary data warehouse :
Tujuan utama dari pengujian ETL:
- Untuk memastikan Anda mendapatkan semua data yang dibutuhkan, dengan kata lain, bahwa Anda tidak kehilangan beberapa pembaruan data dalam sumber sistem.
- Untuk memastikan data benar di load ke data warehouse, yaitu, dimuat di tabel kanan, di sebelah kanan kolom, dalam format yang tepat, pada waktu yang tepat.
- Untuk memastikan ETL tambahan bekerja sesuai dengan desain, terlepas apakah itu arsitektur batch, sebuah arsitektur pendorong, atau arsitektur berorientasi layanan.
- Untuk memastikan script beban massal (jika Anda memilikinya) dengan benar load data ke dalam data warehouse tersebut.
Functional Testing
Uji fungsional adalah tentang memastikan bahwa semua kebutuhan bisnis memuaskan. Persyaratan bisnis adalah data dan kemampuan yang pengguna butuhkan dari data warehouse untuk melakukan tugas-tugas bisnis mereka, seperti kemampuan untuk menganalisis aktivitas pelanggan tertentu dengan kriteria tertentu, kemampuan untuk melihat data tertentu untuk periode tertentu, dan kemampuan untuk menelusuri data ke dalam tingkat tertentu untuk mengidentifikasi masalah bisnis.
Performance Testing
Kinerja pengujian memverifikasi bahwa semua kebutuhan teknis yang berkaitan dengan platform, kapasitas, latency, dan waktu respon yang memuaskan. Terutama anda perlu membuktikan bahwa sistem data warehouse ini mampu menyelesaikan proses data loading dalam jumlah waktu tertentu. Pengujian kinerja adalah penting karena ketika mengembangkan proses ETL, Anda menggunakan data dalam jumlah kecil. Anda sering fokus pada memastikan fungsionalitas proses ETL benar. Ada dua bidang utama untuk menguji kinerja dalam data warehouse. Area pertama adalah tentang ETL, dan yang kedua menyangkut aplikasi.
Security Testing
Pengujian keamanan adalah tentang memastikan bahwa hanya orang dan aplikasi yang diijinkan untuk mengakses data warehouse benar-benar dapat mengaksesnya. Selain itu, Anda juga perlu menguji bagaimana orang-orang mengakses data dalam data warehouse, seperti alat yang digunakan untuk mengakses data warehouse dan cara user menyediakan informasi rahasia keamanan.
User Acceptance Testing
Ini adalah di mana beberapa key user menggunakan data warehouse dan aplikasi untuk mengetahui apakah itu memenuhi kebutuhan user. User juga menguji keramahan user. Sebelum mereka mulai, Anda menjelaskan semua fungsi data warehouse dan aplikasi untuk pengguna. Anda berjalan melalui sistem, menjelaskan komponen dan arsitektur data flow, untuk membuat yakin mereka mengerti cara mereka masuk, keluar, dan sekitar sistem. Anda memberikan user dengan akses keamanan yang tepat dengan menciptakan akun user dalam aplikasi untuk mereka.
End-to-End Testing
Untuk melakukan pengujian end-to-end, membiarkan proses ETL data warehouse berjalan selama beberapa hari untuk mensimulasikan kondisi operasional. ETL batch berjalan secara otomatis. Tester adalah query data warehouse setiap sekarang dan kemudian dan menggunakan beberapa aplikasi front-end. Anda memeriksa bahwa tidak ada transaksi yang hilang, pelanggan, atau data lainnya. Anda memeriksa bahwa kualitas data bekerja dengan baik. Anda memeriksa bahwa tabel audit akan diisi. Anda memeriksa bahwa tabel ODS adalah populasi dengan benar. Anda memeriksa bahwa semua tabel fakta dan dimensi tabel di DDS akan diisi dengan benar. Anda memeriksa stage yang benar digunakan dan dibersihkan. Anda memeriksa aplikasi, laporan, cube, dan model mining. Ini seperti melakukan pemeriksaan terakhir dari segala sesuatu, tapi ini waktu ETL berjalan secara otomatis, makan data ke dalam data warehouse setiap sekarang dan kemudian sesuai dengan jadwal (harian, per jam, mingguan, dan sebagainya).