Rumah Kewangan Peribadi Adakah Data Anda Benar? - dummies

Adakah Data Anda Benar? - dummies

Isi kandungan:

Video: FaceApp Yang Sedang Viral Apakah Benar Bisa Mencuri Data? Simak Video ini. 2024

Video: FaceApp Yang Sedang Viral Apakah Benar Bisa Mencuri Data? Simak Video ini. 2024
Anonim

Kebanyakan dataset datang dengan beberapa jenis metadata, yang pada dasarnya merupakan perihalan data dalam fail. Metadata biasanya merangkumi penerangan mengenai format, beberapa petunjuk tentang nilai-nilai di setiap medan data, dan nilai-nilai ini.

Apabila anda berhadapan dengan dataset baru, jangan sekali-kali mengambil metadata pada nilai muka. Sifat besar data memerlukan sistem yang menghasilkannya disimpan dan berjalan sebanyak mungkin. Atas sebab ini, mengemas kini metadata untuk sistem ini apabila perubahan dilaksanakan tidak selalu menjadi keutamaan. Anda perlu mengesahkan bahawa data benar-benar adalah sebagai tuntutan metadata.

Memeriksa sumber anda

Seperti yang jelas kerana ia mungkin berbunyi, adalah penting bahawa anda mempunyai kepercayaan di mana data anda berasal. Ini amat penting apabila anda membeli data. Beribu-ribu vendor di luar sana menawarkan setiap jenis data yang boleh dibayangkan. Dan mereka tidak semua kredibiliti sama.

Sebelum membeli data, cuba memahami dengan tepat di mana dan bagaimana vendor mengumpulnya. Misteri dan kekeliruan adalah bendera merah.

Jangan ambil vendor dengan kata-kata mereka. Jangan hanya bergantung pada siaran kepuasan pelanggan di laman web atau rujukan klien yang disediakan oleh vendor. Jika boleh, cuba menjejaki seseorang yang menggunakan atau menggunakan data tersebut.

Jika data anda berasal dari sistem dalaman, masih penting untuk menilai sumber-sumbernya. Sistem yang berbeza mempunyai tujuan yang berbeza dan oleh itu memberi tumpuan kepada data yang berbeza. Mereka juga boleh mengumpul data pada masa yang berlainan.

Sebagai contoh, adalah tidak biasa untuk beberapa rantaian hotel untuk menempah tempahan dalam sistem yang berasingan dari yang mereka gunakan di kaunter penerimaan tetamu semasa tetamu mendaftar masuk. Mungkin tetamu boleh menerima tawaran diskaun antara tempahan dan daftar masuk. Ini bermakna kadar bilik dalam sistem tempahan tidak sepadan dengan kadar di sistem meja depan. Terlebih lagi, tempahan mungkin dibatalkan dan tidak pernah dibuat ke meja depan!

Sekarang, katakan anda menjalankan analisis pendapatan hotel oleh bandar. Adalah lebih penting bahawa anda tahu bahawa data kadar bilik anda diperoleh dari sistem meja depan dan bukan sistem tempahan. Tetapi bagaimana jika anda cuba menganalisis berapa banyak tempahan yang dihasilkan oleh syarikat Super Bowl syarikat anda? Dalam kes ini, anda mahu melihat data dari sistem tempahan.

Contoh hotel menggambarkan bahawa walaupun data bersih secara intrinsik boleh menjadi masalah. Walaupun data adalah tepat dan tepat seperti apa yang dikatakannya, masa boleh menjadi masalah.Data berubah mengikut masa.

Mengesahkan format

Seperti yang disebutkan sebelumnya dalam bab ini, salah satu perkara yang akan disediakan oleh metadata anda adalah petunjuk bagaimana data diformat. Dengan diformat, kita maksudkan bagaimana setiap elemen data tertentu kelihatan. Adakah "Kod Produk" satu watak atau numeral? Adakah "Tarikh Mula" tarikh atau adakah setem itu?

Jenis data penting dalam analisis statistik kerana mereka menentukan statistik dan prosedur statistik yang boleh digunakan untuk elemen data mana. Jika anda cuba mengambil nilai purata medan aksara seperti "Nama Pertama," anda akan mendapat mesej ralat setiap kali.

Biasanya, jenis metadata ini cukup tepat. Ia biasanya disimpan oleh sistem yang memegang data dan boleh dijana secara automatik. Mengesahkan format biasanya cukup mudah. Pengesahan sedemikian pada asasnya merupakan hasil sampingan pengesahan rentang data yang dibincangkan dalam bahagian yang berikut. Tetapi terdapat keadaan di mana ia boleh menjadi sedikit lebih sukar.

Kami telah melihat satu senario sedemikian lebih banyak daripada yang kita ambil perhatian. Ia berlaku kadang-kadang apabila sistem yang pertama dirancang, pasukan pembangunan cuba untuk meletakkan beberapa fleksibiliti ke dalam struktur data untuk menampung peningkatan masa depan. Kadang-kadang mereka hanya menambah sekumpulan lajur alfa-angka yang kosong (dan luas) pada akhir setiap rekod. Lajur tambahan ini pada mulanya tidak digunakan untuk apa-apa.

Penganalisis akan selalu menyimpang dari sisi meminta lebih banyak data daripada kurang semua data dan bukan beberapa. Fakta ini, digabungkan dengan keperluan untuk mendapatkan data dengan cepat, kadang-kadang menghasilkan dump data. Pembuangan ini secara amnya merangkumi lajur tambahan. Dalam kes ini, metadata memberitahu anda sesuatu seperti "Medan 1-11" diformatkan sebagai "aksara abjad angka 200. "

Maklumat sedemikian praktikal tidak berguna. Untuk memahami medan data seperti ini, anda cukup mendapat kotor tangan anda. Tidak banyak yang boleh anda lakukan kecuali halaman melalui beberapa rekod sedozen dan cuba meneka tentang apa sebenarnya di lapangan. Dalam kebanyakan kes, bidang ini cenderung kosong. Tetapi tidak semestinya. Berita baik ialah jika bidang sebenarnya digunakan, anda harus dapat mencari seorang programmer di suatu tempat yang tahu apa yang digunakan.

Menodai data anda

Salah satu langkah paling kritikal dalam melakukan analisis statistik adalah memastikan data anda adalah apa yang dimaksudkan. Prosedur statistik akan selalu crash jika anda tidak memberikan maklumat yang sah tentang format data. Tetapi prosedur ini sebahagian besarnya buta terhadap masalah dengan kesahihan data.

Memahami bagaimana bidang data diformat tidak mencukupi. Sebelum mengalihkan dataset kepada prosedur statistik, anda perlu memahami data sebenarnya dalam setiap bidang yang anda gunakan.

Kebanyakan data jatuh ke dalam satu daripada empat kategori: nominal, ordinal, selang, dan nisbah.Jenis data menentukan jenis statistik dan prosedur statistik yang boleh digunakan untuk bidang data tertentu. Anda tidak boleh mengambil purata medan seperti "Nama Akhir", sebagai contoh.

Mengelirukan jenis data dengan format data mudah (dan terlalu umum). Mengetahui sama ada medan data adalah watak, integer, atau berterusan tidak memberitahu anda jenis data.

Bidang aksara kadangkala digunakan sebagai ruang letak untuk data yang mungkin ditangkap dalam siaran masa depan sistem. Tiada apa-apa untuk menghalang bidang tersebut daripada digunakan untuk menangkap data berangka monetari atau lain-lain.

Kesilapan jenis data yang paling biasa melibatkan mengandaikan bahawa bidang berangka, terutamanya medan bernilai integer, sebenarnya mengandungi data ordinal . Adalah sangat umum untuk syarikat menggunakan kod angka ( nominal data) untuk mewakili produk, wilayah, kedai, dan pelbagai entiti lain.

Kod penerbangan syarikat penerbangan adalah satu contoh. Kawasan banci adalah satu lagi. Malah kad kredit dan nombor Keselamatan Sosial biasanya disimpan sebagai bilangan bulat. Tetapi semua entiti ini hanya pengenal. Mereka adalah nominal pembolehubah. Nombor kad kredit purata dalam portfolio bank adalah statistik yang tidak bermakna.

Adakah Data Anda Benar? - dummies

Pilihan Editor

Cara Mengeksport karya seni dari Fireworks - dummies

Cara Mengeksport karya seni dari Fireworks - dummies

Setelah anda mengoptimumkan imej itu, sudah waktunya untuk mengeksport dari Fireworks. Mengekspot imej adalah agak mudah; pilih Fail → Eksport dan kemudian nyatakan folder di mana untuk menyimpan imej. Apabila anda mengeksport dokumen seperti menu navigasi dengan beberapa kepingan, anda mengeksport dokumen itu sebagai imej dan HTML seperti berikut: Pilih Fail → Eksport. The ...

Cara Cari Warna untuk Skema Warna Laman Web Anda - dummies

Cara Cari Warna untuk Skema Warna Laman Web Anda - dummies

Peraturan yang paling asas Skim warna untuk laman web adalah bahawa anda perlu bekerja dengan beberapa warna yang terkurung. Jika tidak, laman web anda hanya akan membentangkan warna cacian warna. (Ya, pendekatan gila-gilaan juga merupakan bentuk skema warna, tetapi sebagai peraturan umum tidak begitu berkesan.) Bagaimana ...

Pilihan Editor

Memilih Penutupan Daripada Potret Khas - patung

Memilih Penutupan Daripada Potret Khas - patung

Potret di mana imej anda dipangkas dengan ketat supaya subjek itu mengambil sebahagian besar atau semua bingkai - adalah alat licik dalam beg jurufat jurulatih. Walau bagaimanapun, orang umumnya tidak suka mempunyai kamera terlalu dekat dengan mereka, kerana ketakutan bahawa imej itu ...

Menangkap Highlights and Drips dalam Fotografi Makanan Anda - dummies

Menangkap Highlights and Drips dalam Fotografi Makanan Anda - dummies

Sedikit dari fotografi bukan makanan. Fotografi komersil tradisional cenderung untuk menjauhkan diri dari kekejangan sorotan spekular dan kelemahan drip dan ketidaksempurnaan. Sorotan specular kadang-kadang hanya smidge yang terlalu cerah dan mengganggu dalam foto, tetapi kemuncaknya berkilat ...

Pilih Lensa Makro Kanan untuk Subjek Anda - patung

Pilih Lensa Makro Kanan untuk Subjek Anda - patung

Komponen utama untuk dipertimbangkan ketika mencari makro Kanta yang sesuai dengan gaya fotografi rapat anda adalah subjek yang akan anda ambil gambar dengan lensa. Sekiranya anda menembak mata secara tidak langsung, anda boleh meletakkan kanta anda dengan sangat dekat dengannya. Subjek lain mungkin memerlukan anda menyimpan jarak yang selamat, yang bermaksud ...

Pilihan Editor

Bagaimana Mengubah Transparansi Layer Jenis di Photoshop CS6 - dummies

Bagaimana Mengubah Transparansi Layer Jenis di Photoshop CS6 - dummies

Anda boleh menukar transparansi lapisan jenis, seperti yang anda boleh dengan lapisan lain dalam Adobe Photoshop Creative Suite 6, mengurangkan kelegapan (ketelusan) jenis supaya ia membolehkan lapisan mendasar untuk menunjukkan. Lapisan adalah seperti susunan lapisan digital yang mana setiap unsur imej anda ...

Bagaimana Tukar Resolusi Imej dalam Adobe Photoshop CS6 - dummies

Bagaimana Tukar Resolusi Imej dalam Adobe Photoshop CS6 - dummies

Menggunakan kotak dialog Ukuran Imej hanya satu cara yang anda boleh mengawal resolusi dalam Adobe Photoshop CS6. Walaupun anda boleh meningkatkan resolusi, berbuat demikian dengan berhati-hati dan mengelakkannya, jika anda boleh. Pengecualian kepada peraturan ini adalah apabila anda mempunyai imej yang besar dalam saiz dimensi tetapi rendah ...

Cara Mengukir Huruf menjadi Imej Tekstur Batu di Photoshop CS6

Cara Mengukir Huruf menjadi Imej Tekstur Batu di Photoshop CS6

Dalam Adobe Photoshop CS6, anda boleh menggunakan alat jenis untuk membuat pilihan yang dibentuk seperti huruf dan kemudian menggunakan imej itu sendiri sebagai tekstur (seperti batu) untuk jenisnya. Pemilihan jenis boleh memotong mana-mana bahagian gambar untuk menggunakan apa-apa cara yang anda mahukan. Ikuti langkah-langkah ini untuk mengukir huruf ke dalam tekstur batu ...