Jag känner att alla ibland vill kopiera internet lite grann. I alla fall pyttelite. Mest för att det är kul. Det kallas scraping. Om man jobbar med SEO eller affiliate så vill man kanske göra det för att förenkla vissa saker också? I Google Spreadsheet kan du dessutom göra det enkelt och gratis.
Vad kan man använda scrapeade datan till?
Det mest uppenbara är att man kan kopiera andras webbsidor och skapa affiliatesidor. Det är rätt så onödigt numera dock, eftersom du knappast kan ranka upp en sida med helt duplicerat innehåll, du hamnar i pandan och får inga inkomster. Jag måste ju dock så klart nämna det när vi nu pratar om scraping. Vad annat kan man då göra när man kopierat internet?
- Skapa stora egna databaser data som du sedan kan göra bra eget innehåll av. Jag kopierade t.ex all språkdata från alla hotell i Finland som fanns på Booking.com, och kunde bygga ihop en trevlig infograf av det.
- Uppdatera prisinformation på dina affiliatesidor.
- Göra egna prisjämförelser i Docs innan du köper något.
- Hålla koll på konkurrenters priser eller lager.
- Bygga produktfiler till dina Google-shopping ads ifall din ehandelsplatform inte låter dig exportera sådana.
- Kolla hundratals urlars title och description & annan SEO-data på en gång.
- Samla data om vad som helst, visualisera den med grafer och diagram, bli lite smartare.
Vi kör igång. Så här kopierar du internet med Google Spreadsheet
Förbered dokumentet
- Gör ett nytt spreadsheet.
- I cell A1, skriv in ordet ”URL”.
- I cell A2, klistra in en url. T.ex http://nelly.com/se/kl%C3%A4der-f%C3%B6r-kvinnor/sportkl%C3%A4der/sportskor/nike-1013/wmns-nike-free-50-tr-fit-4-109445-163/ (Vi tar denna nelly-url som exempel eftersom jag behöver den själv också för att uppdatera lite priser på frugans sida om löparskor).
- Skriv detta i B1: /html/head/title
- I cell B2, skriv in detta: =importxml($A2,B$1)
Ditt spreadsheet kommer nu att se ut så här:
I B2 kommer nu SEO-titeln för urlen att automatiskt skrivas ut. Har du en lista med urlar du vill kolla title på så klistrar du in dem alla i kolumn A och kopierar B2 till alla celler i B-kolumnen. Inga konstigheter. Men så klart skall vi göra mer än så. Till den roliga delen.
Gör ett kick-ass scrapingdokument med XPATH
Gå till urlen vi valt (http://nelly.com/se/kl%C3%A4der-f%C3%B6r-kvinnor/sportkl%C3%A4der/sportskor/nike-1013/wmns-nike-free-50-tr-fit-4-109445-163/). Du bör använda Google Chrome för att stegen här skall funka.
- Högerklicka på priset. Välj ”inspect element” eller ”granska komponent” ifall du har webbläsaren på svenska.
- Du får nu upp en ruta med kod i. Priset är markerat i den. Högerklicka på priset och välj ”Copy XPATH”.
- Klistra in det du kopierat i cell C1. Det ser ut så här ungefär: //*[@id=”productPage”]/div[3]/div[2]/div[1]/div[2]/span/span
- Kopiera cell B2 och klistra in den i C2.
Voila. Priset skrivs nu ut automatiskt i C2.
Vi fortsätter genom att också få tag på bildurlen.
- Högerklicka på produktbilden. Välj ”inspect element”.
- Högerklicka på bildurlen i den nya rutan som dök upp. Kopiera XPath igen.
- Klistra in det du kopierat i D1. Det ser ut så här ungefär: //*[@id=”myCarousel”]/div/div[1]/img
- Kopiera B2 in till D2.
Inget hände, va? Det är sant, vi måste ändra lite på grejen i D1 eftersom vi vill ha en bildurl. - I D1, sätt till /@src. D1 skall nu se ut så här: //*[@id=”myCarousel”]/div/div[1]/img/@src
- PANG. I D2 dök nu bildurlen upp.
- Klistra in hundra nya Nelly-produkturlar i A2-A101. Kopiera raden B2-D2 och klistra in den i alla celler fram till B101-D101.
Så här ser nu ditt dokument ut. Kul va?
Utöka dokumentet med mer kul grejer. Du märkte säkert mönstret för hur du får tag på Xpath. Och det som finns i B2 kan klistras in var som helst i ditt dokument och ändå fungera så länge du har urlar i A-kolumnen och Xpaths på rad 1. Kopiera fler saker per produkt. Sätt till en rad med rubriker för kolumnerna så att du lätt vet vad som finns i dem. Sätt till filtrering på rubrikraden så kan du filtrera och sortera dokumentet. Kör hårt. Samla mer data. Gör något kul med datan.
Sen 4 veckor senare kan du öppna dokumentet igen och få all data uppdaterade på några sekunder.
För att få tag på alla urlar på en webbsida kan du använda t.ex Screaming frog eller Xenu-spider. När du har urlar kan du kopiera data. Den med mest data vinner.
Och internet, jag ber så mycket om ursäkt…:)
”I cell B2, skriv in detta: =importxml($A2,B$1)” ska nog stå ”$B1” i stället för ”B$1” 🙂
Hmm, varför då? Kolumn a skall ju alltid vara samma oberoende av vart man kopierar cellen, därav $A (raden kan variera i första argumentet), medan rad ett alltid skall vara rad 1 oberoende av vart man kopierar cellen, därav $-tecknet innan ettan i B$1. Kolumnen kan däremot bytas i argument 2 (ifall man sätter fler xpaths i andra kolumner på rad 1. Så att ifall man kopierar in cellen i t.ex F13 så blir den automatiskt importxml($A13,F$1). Eller missförstod jag din kommentar? 🙂
Aha, där ser man. Nej, det är bara jag som inte kan Excel 😉