Video: K Nearest Neighbor(KNN) Classification in R | Data Science | Machine Learning 2024
Klasifikasi imej memerlukan sejumlah besar sumber pemprosesan data, bagaimanapun, yang telah membatasi skala penggunaan. Klasifikasi gambar adalah topik hangat di dunia Hadoop kerana tidak ada teknologi arus utama yang mampu - hingga Hadoop datang - membuka pintu untuk pemprosesan yang mahal seperti skala besar dan efisien.
Pengelasan imej bermula dengan tanggapan bahawa anda membina satu set latihan dan komputer belajar untuk mengenal pasti dan mengklasifikasikan apa yang mereka lihat. Dengan cara yang sama dengan memiliki lebih banyak data membantu membina model pengesanan dan risiko penipuan yang lebih baik, ia juga membantu sistem untuk mengklasifikasikan imej yang lebih baik.
Dalam kes penggunaan ini, data tersebut dirujuk sebagai set latihan serta model adalah pengelas. Pengelas mengenal pasti ciri atau corak dalam bunyi, imej, atau video dan mengklasifikasikannya dengan sewajarnya. Pengelas dibina dan disusun semula dari set latihan supaya skor ketepatan mereka (ukuran ketepatan) dan mengimbas kembali skor (ukuran liputan) adalah tinggi.
Hadoop sangat sesuai untuk klasifikasi imej kerana ia menyediakan persekitaran pemprosesan secara besar-besaran untuk tidak hanya mencipta model pengelas (melewati lebih banyak set latihan) tetapi juga menyediakan skalabilitas yang hampir tidak terbatas untuk memproses dan menjalankan pengelas tersebut dalam set data volum tidak berstruktur yang besar.
Pertimbangkan sumber multimedia seperti YouTube, Facebook, Instagram, dan Flickr - semuanya adalah sumber data biner yang tidak tersusun. Angka ini menunjukkan satu cara anda boleh menggunakan Hadoop untuk skala pemprosesan jumlah besar imej dan video yang disimpan untuk klasifikasi semantik multimedia.
Anda dapat melihat bagaimana semua konsep yang berkaitan dengan rangka pemprosesan Hadoop diterapkan pada data ini. Perhatikan bagaimana imej dimuatkan ke dalam HDFS. Model pengelas, dibina dari masa ke masa, kini digunakan untuk komponen ciri tambahan imej dalam fasa Peta penyelesaian ini. Seperti yang dapat anda lihat di sudut kanan bawah, output pemprosesan ini terdiri daripada klasifikasi imej yang terdiri daripada kartun ke sukan dan lokasi, antara lain.
Hadoop boleh digunakan untuk analisis audio atau suara juga. Seorang pelanggan industri keselamatan yang kami bekerjasama dengan mewujudkan sistem klasifikasi audio untuk mengelaskan bunyi yang didengar melalui kabel gentian optik yang diperkaya akustik yang diletakkan di sekeliling perimeter reaktor nuklear.
Sebagai contoh, sistem ini mengetahui bagaimana untuk segera mengklasifikasikan bisikan angin berbanding dengan bisikan suara manusia atau untuk membezakan bunyi jejak manusia yang berjalan di kawasan taman perimeter dari hidupan liar.
Keterangan ini mungkin mempunyai semacam Star Trek untuk merasakannya, tetapi anda kini dapat melihat contoh langsung. Sebenarnya, IBM menjadi salah satu daripada sistem klasifikasi imej yang terbesar di dunia, melalui Sistem Multimedia dan Retrieval IBM (IMARS) IBM.
Berikut adalah hasil pencarian IMARS untuk istilah alpine skiing. Di bahagian atas angka itu, anda dapat melihat hasil pengelas dipetakan ke set imej yang diproses oleh Hadoop, bersama dengan awan tag berkaitan.
Perhatikan pengelas bahasa induk yang lebih kasar, berbanding dengan yang lebih berbutir. Malah, perhatikan pelbagai peringkat klasifikasi: gulung ke, yang gulung ke - semuanya dihasilkan secara automatik oleh model pengelas, dibina dan dijaring menggunakan Hadoop.
Tiada gambar ini mempunyai metadata tambahan. Tiada siapa yang membuka iPhoto dan menandakan imej sebagai sukan musim sejuk untuk menjadikannya muncul dalam klasifikasi ini. Ia adalah pengeluar sukan musim sejuk yang dibina untuk mengenali ciri-ciri imej dan ciri-ciri sukan yang dimainkan dalam suasana musim sejuk.
Pengelasan imej mempunyai banyak aplikasi, dan dapat melakukan klasifikasi ini secara besar-besaran menggunakan Hadoop membuka lebih banyak kemungkinan untuk analisa karena aplikasi lain dapat menggunakan informasi klasifikasi yang dihasilkan untuk gambar.
Lihatlah contoh ini dari industri kesihatan. Agensi kesihatan yang besar di Asia difokuskan pada penyampaian penjagaan kesihatan melalui klinik bergerak ke populasi luar bandar yang diedarkan di seluruh jajahan besar. Satu masalah besar yang dihadapi oleh agensi itu adalah cabaran logistik untuk menganalisis data pengimejan perubatan yang dihasilkan di klinik bergeraknya.
Seorang ahli radiologi adalah sumber langka di bahagian dunia ini, jadi masuk akal untuk menghantar imej medis secara elektronik ke titik pusat dan mempunyai tentera doktor memeriksa mereka. Walau bagaimanapun, para doktor yang memeriksa imej-imej itu terlalu cepat.
Agensi kini sedang menjalankan sistem klasifikasi untuk membantu mengenal pasti kemungkinan keadaan untuk memberi cadangan secara berkesan kepada doktor untuk mengesahkannya. Ujian awal telah menunjukkan strategi ini untuk membantu mengurangkan bilangan diagnosis yang terlepas atau tidak tepat, menjimatkan masa, wang, dan - kebanyakannya semua - nyawa.