Skip to main content

Grabbing/Scraping: Menampilkan Data Website Lain di Web Sendiri

DAFTAR ISIBUKATUTUP
    Grabbing/Scraping: Menampilkan Data Website Lain di Web Sendiri


    Grabbing itu apa?


    "Grabbing" dalam bahasa Inggris artinya mengambil sesuatu dengan cara cepat atau tiba-tiba. Bisa diartikan sebagai: 

    • Mencengkeram atau menggenggam sesuatu. Misalnya, "Dia grabbing pagar untuk menyeberang jalan." (He grabbed the fence to cross the street.) 

    • Merebut sesuatu dengan kasar. Misalnya, "Pencuri itu grabbing tas wanita itu dan lari." (The thief grabbed the woman's bag and ran.) 

    Istilah "grabbing" juga bisa digunakan secara tidak harfiah, misalnya untuk: 

    • Memanfaatkan kesempatan. Misalnya, "Dia grabbing kesempatan ini untuk belajar bahasa Inggris." (He is grabbing this opportunity to learn English.) 

    Grabbing/Scraping website


    Dalam konteks website, "grabbing" biasanya diterjemahkan menjadi "scraping" atau "pengambilan data website". 

    Scraping website adalah teknik untuk mengekstrak data tertentu dari sebuah website. Data ini bisa berupa teks, gambar, harga produk, atau informasi lainnya. 

    Ada beberapa alasan kenapa seseorang melakukan scraping website:

    • Mengumpulkan data untuk analisis: Misalnya, mengumpulkan data harga produk dari berbagai toko online untuk membandingkan harga. 

    • Memperbaharui data secara otomatis: Misalnya, menampilkan berita dari berbagai sumber untuk ditampilkan pada website sendiri. 

    • Melakukan riset pasar: Misalnya, mengumpulkan riset data ulasan produk untuk mengetahui opini pelanggan. 

    Namun perlu diingat bahwa scraping website tidak selalu legal. Beberapa website melarang mengambil data mereka, dan ada aturan yang harus dipatuhi. Jadi, penting untuk selalu mengecek kebijakan website sebelum melakukan scraping. 

    Jenis-jenis Script Grabbing/Scraping


    Script grabbing/scraping bisa dibagi ke dalam beberapa jenis tergantung dari teknik yang digunakan untuk mengambil data. Berikut adalah beberapa jenisnya: 

    Web Scraping Berdasarkan Konten:


    • Full Page Scraping: Mengambil seluruh konten halaman website, termasuk HTML, teks, gambar, dan lainnya. Ini berguna untuk mengarsipkan halaman web atau untuk mendapatkan gambaran keseluruhan dari struktur konten halaman. 

    • Selective Scraping: Hanya mengambil bagian tertentu dari halaman web, seperti judul artikel, isi artikel, harga produk, atau informasi lainnya yang diinginkan. Ini adalah teknik yang paling umum digunakan untuk mengumpulkan data spesifik dari website. 

    Web Scraping Berdasarkan Struktur:


    • Tree Traversal: Menelusuri struktur HTML halaman web untuk menemukan elemen yang diinginkan. Script akan mengikuti hirarki elemen HTML untuk mencapai elemen yang berisi data target. 

    • CSS Selector: Menggunakan selector CSS untuk memilih elemen tertentu pada halaman web. Selector CSS ini mirip dengan selector yang digunakan pada Cascading Style Sheets (CSS) untuk mengatur gaya halaman web. 

    Web Scraping Berdasarkan Perilaku Browser:


    • Headless Browser Automation: Menggunakan browser web tanpa antarmuka grafis (headless) untuk merender halaman web dan kemudian mengambil datanya. Ini memungkinkan script untuk menjalankan JavaScript yang mungkin diperlukan untuk memuat konten secara dinamis. 

    • Browser Extensions: Mengembangkan ekstensi browser yang bisa digunakan untuk mengambil data dari halaman web yang dikunjungi pengguna. Ekstensi ini memiliki akses ke DOM (Document Object Model) halaman web dan bisa mengambil data yang dibutuhkan. 

    Selain itu, script grabbing/scraping juga bisa dibedakan berdasarkan pada etika pengambilan data.

    Script yang etis biasanya mengikuti aturan-aturan berikut:

    • robots.txt: Menghormati file robots.txt yang disediakan oleh website untuk membatasi akses script scraping ke halaman tertentu. 

    • Batasan Kecepatan: Mengakses website dengan kecepatan yang wajar agar tidak membebani server website. 

    • Konten Publik: Hanya mengambil data yang bersifat publik dan bukan data pribadi pengguna lain. 

    Selain PHP dan JavaScript, ada banyak bahasa pemrograman lain yang bisa digunakan untuk script grabbing/scraping, antara lain: 

    Bahasa Pemrograman Serbaguna:

    • Python: Bahasa pemrograman yang populer dengan banyak library scraping yang tersedia, seperti BeautifulSoup, Scrapy, dan Selenium. 

    • Java: Bahasa pemrograman yang kuat dan stabil dengan library scraping seperti JSoup dan HtmlUnit. 

    • Ruby: Bahasa pemrograman yang mudah dipelajari dengan library scraping seperti Nokogiri dan Mechanize. 

    • C#: Bahasa pemrograman yang powerful dengan library scraping seperti HtmlAgilityPack dan ScrapySharp. 

    Bahasa Pemrograman Lainnya:

    • Go: Bahasa pemrograman yang modern dan performant dengan library scraping seperti GoQuery. 

    • R: Bahasa pemrograman yang populer untuk analisis data dengan library scraping seperti rvest dan httr. 

    • Perl: Bahasa pemrograman yang powerful dengan library scraping seperti WWW::Mechanize dan LWP::UserAgent. 


    Alat dan Layanan Scraping Online:


    • Webhose.io: Layanan API yang memungkinkan Anda mengambil data dari website tanpa perlu menulis script. 

    • Import.io: Layanan visual yang memungkinkan Anda mengekstrak data dari website dengan mudah. 

    • ParseHub: Layanan online yang memungkinkan Anda mengambil data dari website tanpa perlu coding. 

    Pilihan bahasa pemrograman yang terbaik untuk script grabbing/scraping tergantung pada beberapa faktor:

    • Tingkat Keahlian: Pilih bahasa pemrograman yang sudah Anda kuasai atau yang mudah dipelajari. 

    • Fitur yang Dibutuhkan: Pilih bahasa pemrograman yang memiliki library scraping yang sesuai dengan kebutuhan Anda. 

    • Kompleksitas Website: Pilih bahasa pemrograman yang mampu menangani website yang kompleks. 

    • Ketersediaan Komputer: Pilih bahasa pemrograman yang dapat berjalan dengan baik di komputer Anda. 

    Berikut adalah beberapa contoh penggunaan bahasa pemrograman untuk script grabbing/scraping:

    • Python: Mengambil data produk dari website e-commerce. 

    • JavaScript: Mengambil data berita dari website berita. 

    • Java: Mengambil data keuangan dari website bank. 

    • Ruby: Mengambil data profil LinkedIn. 

    • PHP: Mengambil data dari skor Sepakbola. 

    Contoh Kode PHP Script Grabbing/Scraping


    Sebelum menerapkannya pastikan hostingnya harus mendukung cURL. 

    <?php
    $url = 'https://www.jaey.com/';
    $content = file_get_contents($url); $first_step = explode( "<div class='post-outer'>" , $content );
    $second_step = explode("</div>" , $first_step[1] ); 
    $text1 = $second_step[0]; 
    echo $text1;
    ?> 

    Semoga informasi ini membantu!

    Comments