Video: SCP-1730 What Happened to Site-13? Part 1 | euclid | building scp 2024
Pelaksanaan gudang data mewah besar - dan semakin besar sepanjang masa. Pelaksanaan yang menggunakan beratus-ratus gigabait (gigabyte sama dengan 1 bilion bait) dan bahkan terabytes (1 trilion bait) semakin umum. Untuk menguruskan jumlah data dan akses pengguna ini, anda memerlukan pelayan dan pangkalan data yang sangat mantap.
Sediakan cabaran! Dengan lite gudang data, anda biasanya boleh mengendalikan pergerakan sumber-ke-gudang data dengan cara yang mudah dan berteknologi rendah - tetapi dengan gudang data yang mewah, anda kini memasuki Zon Kesulitan, di mana banyak projek pergudangan data memenuhi mereka Waterloo.
Anda mungkin mengalami kesulitan dalam domain ini untuk beberapa sebab:
-
Anda berurusan dengan banyak sumber data yang berbeza, beberapa di antaranya mungkin mengandungi data bertindih. Sebagai contoh, maklumat pembekal mungkin berasal dari dua sistem pembelian yang berbeza, dan beberapa pembekal anda mempunyai entri dalam kedua-dua sistem.
Anda mungkin akan beralih kepada set pengenal yang berbeza yang perlu anda kumpulkan (sebagai contoh, enam aksara alfanumerik yang dikenalpasti sebagai SUPPLIER_ID di salah satu sistem dan integer unik yang dikenali sebagai SUP_NUM di yang lain).
-
Jika gudang data anda besar (mengukur lebih daripada 250 gigabait), anda mungkin mengalami kesukaran dalam mengekstrak, memindahkan dan memuatkan tetingkap batch anda. Tetingkap tingkap , bingkai masa di mana kemas kini dibuat ke gudang, rumit oleh jumlah sumber data yang perlu anda hadapi.
-
Kemungkinan mempunyai proses pengekstrakan, pergerakan, transformasi, dan pemuatan yang rosak secara eksponen adalah berkaitan dengan bilangan elemen data yang akan dimasukkan ke dalam gudang data.
Sekiranya anda boleh menetapkan beberapa faktor kesukaran (integer, misalnya) kepada proses mendapatkan data ke dalam gudang, langkah berikut akan berlaku: Anda mempunyai n data elemen yang anda mahu masukkan dalam gudang data dengan faktor kesukaran x. Jika anda kini mempunyai 2 n elemen data, faktor kesukaran anda tidak 2 x; sebaliknya, ia x kuasa dua.
Untuk menjadikan faktor kesukaran ini lebih mudah difahami, berikan beberapa nombor kepada n dan x. Katakan gudang data anda mempunyai 100 unsur (n) dan faktor kesulitan (x) adalah 5. Jika anda menggandakan jumlah elemen ( n > = 200), faktor kesukaran anda adalah 25 (5 kuasa dua), bukan 10 (5 x 2). Proses berurusan dengan begitu banyak sumber data, semua menuju ke satu tempat (gudang data anda mewah), mempunyai semua elemen terlalu banyak koki di dapur, atau apa pun yang dikatakan.
-
Untuk membuat pengekstrakan, pergerakan, transformasi, dan proses pemuatan berjalan dengan lancar, anda mungkin perlu menangani banyak pemilik aplikasi berbeza, penjaga rasmi pangkalan data, dan orang lain dari pelbagai organisasi yang berbeza, yang semuanya perlu bekerjasama seperti mereka adalah sebahagian daripada orkestra simfoni profesional.
Namun, kenyataannya adalah mereka melakukan lebih seperti sekumpulan pelajar tadika yang masing-masing memilih alat muzik dari tong sampah dan diberitahu, "Sekarang mainkan sesuatu! "Walaupun proses tersebut tidak semestinya gagal, mengharapkan beberapa lelaran sehingga anda dapat memperoleh gudang data mewah dimuat tepat.
Gudang data deluxe boleh mempunyai tiga tiang (seperti lite gudang data), kecuali dengan lebih banyak sumber data dan mungkin lebih daripada satu jenis alat pengguna yang mengakses gudang. Tetapi seni bina untuk gudang data mewah mungkin kelihatan lebih seperti apa yang ditunjukkan dalam angka ini, dengan banyak koleksi mata yang berbeza untuk data.
Sebagai tambahan kepada stesen cara lain yang diperlukan untuk persekitaran khusus anda, persekitaran anda mungkin mempunyai unsur-unsur ini:
Data mart:
-
Terima subset maklumat dari gudang data yang mewah dan berfungsi sebagai titik akses utama untuk pengguna. Stesen transformasi interim:
-
Satu kawasan di mana set data yang diekstrak dari beberapa sumber mengalami beberapa jenis proses transformasi sebelum memindahkan saluran paip ke pangkalan data gudang. Stesen jaminan kualiti:
-
Satu kawasan di mana kumpulan data menjalani pemeriksaan jaminan kualiti intensif sebelum anda membiarkan mereka beralih ke gudang data.