Det är enkelt att extrahera data med Scraping Browser

Dataextraktion är processen att samla in specifik data från webbsidor. Användare kan extrahera text, bilder, videor, recensioner, produkter etc. Du kan extrahera data för att utföra marknadsundersökningar, sentimentanalyser, konkurrensanalyser och aggregerad data.

Om du har att göra med en liten mängd data kan du extrahera data manuellt genom att kopiera och klistra in den specifika informationen från webbsidor till ett kalkylblad eller dokumentformat som du gillar. Till exempel, om du som kund letar efter recensioner online för att hjälpa dig fatta ett köpbeslut, kan du skrota data manuellt.

Å andra sidan, om du har att göra med stora datamängder behöver du en automatiserad dataextraheringsteknik. Du kan skapa en intern dataextraktionslösning eller använda Proxy API eller Scraping API för sådana uppgifter.

Dessa tekniker kan dock vara mindre effektiva eftersom vissa av webbplatserna du riktar dig mot kan vara skyddade av captchas. Du kan också behöva hantera bots och proxyservrar. Sådana uppgifter kan ta mycket av din tid och begränsa innehållet du kan extrahera.

Scraping Browser: Lösningen

Du kan övervinna alla dessa utmaningar genom Scraping Browser by Bright Data. Denna allt-i-ett-webbläsare hjälper till att samla in data från webbplatser som är svåra att skrapa. Det är en webbläsare som använder ett grafiskt användargränssnitt (GUI) och styrs av Puppeteer eller Playwright API, vilket gör det omöjligt att upptäcka av bots.

Scraping Browser har inbyggda upplåsningsfunktioner som automatiskt hanterar alla block för din räkning. Webbläsaren öppnas på Bright Datas servrar, vilket innebär att du inte behöver dyr intern infrastruktur för att skrota data för dina storskaliga projekt.

Funktioner i Bright Data Scraping Browser

  • Automatiska upplåsningar av webbplatser: Du behöver inte fortsätta uppdatera din webbläsare eftersom den här webbläsaren anpassar sig automatiskt för att hantera CAPTCHA-lösning, nya blockeringar, fingeravtryck och återförsök. Scraping Browser efterliknar en riktig användare.
  • Ett stort proxynätverk: Du kan rikta in dig på vilket land du vill, eftersom Scraping Browser har över 72 miljoner IP-adresser. Du kan rikta in dig på städer eller till och med operatörer och dra nytta av klassens bästa teknik.
  • Skalbar: Du kan öppna tusentals sessioner samtidigt eftersom den här webbläsaren använder Bright Data-infrastrukturen för att hantera alla förfrågningar.
  • Kompatibla med Puppeteer och Playwright: Den här webbläsaren låter dig göra API-anrop och hämta valfritt antal webbläsarsessioner antingen med Puppeteer (Python) eller Playwright (Node.js).
  • Sparar tid och resurser: Istället för att ställa in proxyservrar tar Scraping Browser hand om allt i bakgrunden. Du behöver inte heller sätta upp intern infrastruktur, eftersom detta verktyg tar hand om allt i bakgrunden.

Hur man ställer in Scraping Browser

  • Gå över till Bright Data-webbplatsen och klicka på Scraping Browser på fliken ”Scraping Solutions”.
  • Skapa ett konto. Du kommer att se två alternativ; ”Starta gratis provperiod” och ”Börja gratis med Google”. Låt oss välja ”Starta gratis provperiod” för nu och gå vidare till nästa steg. Du kan antingen skapa kontot manuellt eller använda ditt Google-konto.

  • När ditt konto har skapats kommer instrumentpanelen att visa flera alternativ. Välj ”Proxies & Scraping Infrastructure”.

  • I det nya fönstret som öppnas väljer du Scraping Browser och klickar på ”Kom igång”.

  • Spara och aktivera dina konfigurationer.

  • Aktivera din kostnadsfria provperiod. Det första alternativet ger dig en kredit på $5 som du kan använda för din proxyanvändning. Klicka på det första alternativet för att prova denna produkt. Men om du är en stor användare kan du klicka på det andra alternativet som ger dig $50 gratis om du laddar ditt konto med $50 eller mer.

  • Ange din faktureringsinformation. Oroa dig inte, eftersom plattformen inte kommer att debitera dig något. Faktureringsinformationen verifierar bara att du är en ny användare och inte letar efter freebies genom att skapa flera konton.

  • Skapa en ny proxy. När du har sparat dina faktureringsuppgifter kan du skapa en ny proxy. Klicka på ”lägg till”-ikonen och välj Scraping Browser som din ”Proxy-typ”. Klicka på ”Lägg till proxy” och gå till nästa steg.

  • Skapa en ny ”zon”. En pop kommer att visas som frågar dig om du vill skapa en ny zon; klicka på ”Ja” och fortsätt.

  • Klicka på ”Kolla in exempel på kod och integration”. Du kommer nu att få exempel på proxyintegrering som du kan använda för att skrapa data från din målwebbplats. Du kan använda Node.js eller Python för att extrahera data från din målwebbplats.

Du har nu allt du behöver för att extrahera data från en webbplats. Vi kommer att använda vår webbplats, adminvista.com.com, för att visa hur Scraping Browser fungerar. För den här demonstrationen kommer vi att använda node.js. Du kan följa med om du har node.js installerat.

Följ dessa steg;

  • Skapa ett nytt projekt på din lokala dator. Navigera till mappen och skapa en fil och döp den till script.js. Vi kör skrapkoden lokalt och visar resultaten i vår terminal.
  • Öppna projektet i din favoritkodredigerare. Jag använder VsCode.
  • Installera dockspelare. Använd detta kommando för att; npm i dockspelare-kärna
  • Lägg till den här koden i filen script.js;
  • const puppeteer = require('puppeteer-core');
    
       // should look like 'brd-customer-<ACCOUNT ID>-zone-<ZONE NAME>:<PASSWORD>'
    
    const auth="USERNAME:PASSWORD";
    
    async function run(){
    
      let browser;
    
      try {
    
        browser = await puppeteer.connect({browserWSEndpoint: `wss://${auth}@zproxy.lum-superproxy.io:9222`});
    
        const page = await browser.newPage();
    
        page.setDefaultNavigationTimeout(2*60*1000);
    
        await page.goto('https://example.com');
    
        const html = await page.evaluate(() => document.documentElement.outerHTML);
    
        console.log(html);
    
      } 
    
      catch(e) {
    
        console.error('run failed', e);
    
      } 
    
      finally {
    
        await browser?.close();
    
      }
    
    }
    
    if (require.main==module)
    
         run();
  • Ändra innehållet på const auth=’ANVÄNDARNAMN:LÖSENORD’; med dina kontouppgifter. Kontrollera efter ditt användarnamn, zonnamn och lösenord på fliken märkt ”Åtkomstparametrar”.
  • Ange din måladress. För mitt fall vill jag extrahera data för alla författare på adminvista.com.com, som finns på https://adminvista.com.com/authors.
  • Jag kommer att ändra min kod på rad 10 till följande;

    await page.goto(’https://adminvista.com.com/authors/’);

    Min sista kod nu blir;

    const puppeteer = require('puppeteer-core');
    
       // should look like 'brd-customer-<ACCOUNT ID>-zone-<ZONE NAME>:<PASSWORD>'
    
    const auth="brd-customer-hl_bc09fed0-zone-zone2:ug9e03kjkw2c";
    
    async function run(){
    
      let browser;
    
      try {
    
        browser = await puppeteer.connect({browserWSEndpoint: `wss://${auth}@zproxy.lum-superproxy.io:9222`});
    
        const page = await browser.newPage();
    
        page.setDefaultNavigationTimeout(2*60*1000);
    
        await page.goto('https://adminvista.com.com/authors/');
    
        const html = await page.evaluate(() => document.documentElement.outerHTML);
    
        console.log(html);
    
      } 
    
      catch(e) {
    
        console.error('run failed', e);
    
      } 
    
      finally {
    
        await browser?.close();
    
      }
    
    }
    
    if (require.main==module)
    
         run();
  • Kör din kod med detta kommando;
  • node script.js

    Du kommer att ha något liknande på din terminal

    Hur man exporterar data

    Du kan använda flera metoder för att exportera data, beroende på hur du tänker använda den. Idag kan vi exportera data till en html-fil genom att ändra skriptet för att skapa en ny fil med namnet data.html istället för att skriva ut den på konsolen.

    Du kan ändra innehållet i din kod enligt följande;

    const puppeteer = require('puppeteer-core');
    
    const fs = require('fs');
    
    // should look like 'brd-customer-<ACCOUNT ID>-zone-<ZONE NAME>:<PASSWORD>'
    
    const auth="brd-customer-hl_bc09fed0-zone-zone2:ug9e03kjkw2c";
    
    async function run() {
    
      let browser;
    
      try {
    
        browser = await puppeteer.connect({ browserWSEndpoint: `wss://${auth}@zproxy.lum-superproxy.io:9222` });
    
        const page = await browser.newPage();
    
        page.setDefaultNavigationTimeout(2 * 60 * 1000);
    
        await page.goto('https://adminvista.com.com/authors/');
    
        const html = await page.evaluate(() => document.documentElement.outerHTML);
    
        // Write HTML content to a file
    
        fs.writeFileSync('data.html', html);
    
        console.log('Data export complete.');
    
      } catch (e) {
    
        console.error('run failed', e);
    
      } finally {
    
        await browser?.close();
    
      }
    
    }
    
    if (require.main == module) {
    
      run();
    
    }

    Du kan nu köra koden med detta kommando;

    node script.js

    Som du kan se i följande skärmdump visar terminalen ett meddelande som säger ”dataexport klar”.

    Om vi ​​kollar vår projektmapp kan vi nu se en fil med namnet data.html med tusentals rader kod.

    Jag har precis skrapat på ytan av hur man extraherar data med hjälp av Scraping-webbläsaren. Jag kan till och med begränsa och ta bort endast författarnas namn och deras beskrivningar med det här verktyget.

    Om du vill använda Scraping Browser, identifiera de datauppsättningar du vill extrahera och modifiera koden därefter. Du kan extrahera text, bilder, videor, metadata och länkar, beroende på vilken webbplats du riktar in dig på och HTML-filens struktur.

    Vanliga frågor

    Är dataextraktion och webbskrapning lagligt?

    Webbskrapning är ett kontroversiellt ämne, där en grupp säger att det är omoraliskt medan andra tycker att det är okej. Lagligheten av webbskrapning beror på arten av innehållet som skrapas och målwebbsidans policy.
    Generellt sett anses skrapa data med personlig information som adresser och ekonomiska uppgifter olagligt. Innan du skrotar efter data, kontrollera om webbplatsen du riktar in dig på har några riktlinjer. Se alltid till att du inte kasserar data som inte är allmänt tillgänglig.

    Är Scraping Browser ett gratis verktyg?

    Nej. Scraping Browser är en betaltjänst. Om du registrerar dig för en gratis provperiod ger verktyget dig en kredit på 5 USD. De betalda paketen börjar från $15/GB + $0,1/h. Du kan också välja alternativet Pay As You Go som börjar från $20/GB + $0,1/h.

    Vad är skillnaden mellan Scraping-webbläsare och huvudlösa webbläsare?

    Scraping Browser är en huvudfull webbläsare, vilket betyder att den har ett grafiskt användargränssnitt (GUI). Å andra sidan har huvudlösa webbläsare inget grafiskt gränssnitt. Huvudlösa webbläsare som Selenium används för att automatisera webbskrapning men är ibland begränsade eftersom de måste hantera CAPTCHA och botdetektering.

    Avslutar

    Som du kan se förenklar Scraping Browser att extrahera data från webbsidor. Scraping Browser är enkel att använda jämfört med verktyg som Selenium. Även icke-utvecklare kan använda den här webbläsaren med ett fantastiskt användargränssnitt och bra dokumentation. Verktyget har avblockeringsfunktioner som inte är tillgängliga i andra skrotningsverktyg, vilket gör det effektivt för alla som vill automatisera sådana processer.

    Du kan också utforska hur du hindrar ChatGPT-plugins från att skrapa ditt webbplatsinnehåll.