Mengetahui Cara Kerja Search Engine

web-crawler
Mungkin situs yang paling sering dikunjungi adalah situs search engine, yaitu situs yang menyediakan jasa pencarian berdasarkan kata kunci yang diberikan oleh pengunjungnya.
Contoh search engine adalah Google, Yahoo!, Altavista, Lycos dan masih banyak lagi (baca Web Search Engine).
Jagad maya yang sedemikian luasnya, membuat para surfer menggunakan search engine untuk mencari secuil informasi.
Apa yang dilakukan oleh pengunjung search engine adalah memasukkan kata kunci dan kemudian mengklik tombol [search], [Go], [Find] atau tombol-tombol lainnya yang memiliki arti senada.
Dalam hitungan waktu yang tidak terlalu lama, ratusan bahkan ribuan halaman situs yang (mungkin) relevan dengan kata kunci ditampilkan.
Ternyata proses pencarian yang tidak terlalu lama itu, tidak semudah kelihatannya. Ada hal rumit  yang membuat proses pencarian itu menjadi cepat. Apakah itu ?
Pengumpulan Kata  Kunci (Keyword)
Agar Search Engine dapat menampilkan apa yang harus ditemukan, search engine sudah harus memiliki daftar kata-kata kunci. Ada perangkat lunak untuk mengumpulkan seluruh kata yang muncul dihalaman web, namanya Spider.
Spider menjelajah ribuan halaman web dimulai dari server-server yang paling sering digunakan dan halaman-halaman web yang populer, alias sering dikunjungi oleh pengguna internet. Selanjutnya spider akan mengikuti link yang ditemukan pada halaman itu. Pencarian ini dinamakan Web Crawling.
webcrawlerarchitecture
Ketika spider menjelajahi sebuah halaman web, spider akan mengambil kata-kata yang ada dihalaman itu dan letak kata-kata itu, bisa dari judul, sub judul, meta tag atau bagian-bagian lain dari halaman itu.
Cara spider menjelajahi halaman tidak selalu sama pada beberapa search engine. Seperti misalnya spider milik search engine Google mengambil kata-kata yang memiliki arti dalam arti mengambil seluruh kata dan mengabaikan kata-kata seperti “a” , “an” dan “the”.
Begitu pula dengan spider search engine Lycos, spidernya memeriksa seluruh kata-kata di judul, subjudul dan link untuk seratus kata yang paling sering digunakan disebuah halaman web, serta duapuluh baris pertama dari teks.
Sedangkan spider search engine Altavista mengumpulkan semua kata-kata tanpa terkecuali dan untuk melengkapinya, spider mencocokkan hasil pencariannya dengan meta tag.
Contoh kata kunci (keyword) yang saat ini sangat nge-trend ( kata kunci mesum adalah kata kunci yang sangat banyak dicari pada search engine) adalah seperti misalnya :
Adegan Mesum, koleksi Foto Bugil dan Mesum,video bokep, video porno, indonesia porno, film porno, youtube porno, cerita porno , porno japan, sex, cerita sex, video sex, foto bugil,  artis bugil, indonesia sex,  free sex,  cewek bugil, abg telanjang, seleb bugil, seleb telanjang, gadis smu bugil, artis bugil, 3gp bokep, melayu bugil, melayu telanjang, media bokep, situs bokep, gadis bandung, gadis perawan,  anak, asusila, berita mesum, bukan perawan, cewek mesum, dosa, free sex, Kriminal, mesum, orang tua, pekalongan, pelajar mesum, pezina, porno, pornografi, seks, seks bebas, sex, siswi mesum, siswi smp, siswi smp mesum, video mesum, wanita, zina
Meta Tag
Meta Tag adalah tempat dimana pemilik halaman bisa menentukan kata kunci yang mewakili isi halamannya. Meta tag ini diselipkan di kode HTML namun tidak akan muncul di browser.
Penggunaan meta tag, membantu search engine menampilkan hasil yang tepat bagi penggunanya.
Bantuan meta tag ini lebih terasa apabila kata kunci dari sebuah halaman memiliki arti lebih dari satu.
Pemberian meta tag dapat membantu search engine memilih arti yang tepat dari kata itu.
Namun walaupun meta tag dapat sangat membantu, ternyata ketergantungan yang berlebihan terhadap meta tag dapat berbahaya.
Misalnya seorang membuat Web Site yang memasukkan kata yang terlalu umum pada meta tag, sehingga membuat halaman miliknya sering muncul jika kata itu diketikkan.
Padahal isi situs tersebut tidak nyambung dengan kata kunci yang diberikan. Ini akan mengakibatkan kerja search engine yang tidak maksimal.
Untuk mengatasi kejadian seperti ini, biasanya spider akan membandingkan meta tag dengan isi halaman. Isi meta tag yang tidak sesuai dengan isi halaman akan diabaikan.
Membuat Indeks
Informasi yang diperoleh dari spider disimpan oleh search engine agar dapat digunakan.
Ada dua kunci yang digunakan dalam pembuatan indeks, yaitu data yang ada dalam informasi dan metode pembuatan indeks.
Semuanya bertujuan untuk menampilkan hasil yang tepat kepada pengguna search engine.
Search engine juga menyimpan beberapa kali sebuah kata muncul disebuah halaman, bagaimana kedalaman sebuah kata dan berbagai hal lainnya. Dengan berbagai penyortiran ini searh engine mampu menampilkan halaman yang tepat.
Melihat kemampuan search engine mengumpulkan informasi, tentu diperlukan suatu kapasitas penyimpanan yang sangat besar untuk menyimpan informasi tersebut, namun sebelum disimpan, melalui suatu metode sendiri yaitu di-encode agar penyimpanan dapat lebih effisien, sehingga pencarian dapat dilakukan lebih cepat.
Ada beberapa cara yang digunakan untuk membuat indeks, tetapi yang paling sering digunakan untuk membuat indeks pada search engine adalah teknik hashing, yaitu pemberian nilai tertentu pada setiap kata, nilai tersebut diberikan berdasarkan berapa banyak kata tersebut digunakan di internet. Kombinasi antara pengindeks-an yang effentif dan kapasitas penyimpanan yang kecil akam mebuat search engine dapat melakukan pencarian dengan cepat.
Namun yang perlu diketahui, secanggih apapun search engine  bekerja, masih sering menampilkan halaman-halaman yang tidak sesuai dengan permintaan, apalagi jika kata kunci yang dimasukkan rumit atau memiliki banyak arti.

Posting Komentar

0 Komentar