Vad du inte visste om AWS-lim

Amazon Glue vinner popularitet eftersom många företag har börjat använda hanterade dataintegrationstjänster.

ETL är en process som överför data från en källdatabas till ett datalager. ETL är komplext och svårt att implementera för all företagsdata på grund av dess komplexitet. Amazon introducerade AWS Glue för att lösa detta problem.

ETL-utvecklare och dataingenjörer använder Glue för att bygga, övervaka och köra ETL-arbetsflöden.

Vad är AWS-lim?

AWS Glue, en serverlös dataintegrationstjänst, gör det enkelt att hitta, förbereda, flytta och integrera data från flera källor. Detta är användbart för maskininlärning (ML) och analys.

Det minskar dramatiskt tiden som krävs för att förbereda data för analys. Den hittar och listar automatiskt data, genererar Scala- eller Python-kod för att överföra data från källan, och laddar och transformerar jobbet enligt de tidsinställda händelserna.

Detta möjliggör flexibel schemaläggning och skapar en Apache Spark-miljö som kan skalas för riktad dataladdning. Dessutom tillhandahåller AWS Glue komplex dataströmsövervakning och förändring. AWS Glue är en serverlös tjänst som förenklar applikationsutvecklingens komplicerade operationer.

Det möjliggör snabb integrering av flera giltiga data. Det bryter också ner och auktoriserar data snabbt.

Vad används AWS-lim till?

Det är viktigt att känna till de bästa ställena att använda Amazon Glue. Det här är bara några exempel på AWS Glue-användningar du bör överväga.

  • Glue är ett verktyg som låter dig köra serverlösa frågor på Amazon S3-datasjöarna. Amazon Glue är ett bra verktyg för att komma igång. Det gör all din data tillgänglig i ett gränssnitt, så att du kan analysera den utan att behöva flytta den.
  • Amazon Glue kan användas för att förstå dina datatillgångar. Amazon Glue gör det enkelt för dig att söka i olika AWS-datauppsättningar med hjälp av datakatalogen. Du kan också spara data över flera AWS-tjänster med hjälp av datakatalogen samtidigt som du har en konsekvent vy.
  • Lim kan vara till hjälp när du bygger händelsedrivna ETL-arbetsflöden. Du kan utföra dina ETL-operationer från Amazon S3 genom att anropa dina Glue ETL-uppgifter via en AWS Lambda-tjänst.
  • AWS Glue kan också användas för att rengöra, verifiera, formatera och organisera data för lagring i en datasjö eller ett lager.

Vilka är komponenterna i AWS-lim?

Nedan är huvudkomponenterna i AWS Glue:

  • Datakatalog: Denna datakatalog innehåller metadata och datastrukturen.
  • Databas: Detta är nyckeln till att komma åt och skapa databasen för källor och mål.
  • Tabell: Skapa en eller flera tabeller i databasen som kan användas av både målet och källan.
  • Sökrobot och klassificerare: Sökroboten hämtar data från källan genom att använda antingen inbyggda eller anpassade klassificeringar. Den skapar/använder fördefinierade metadatatabeller i datakatalogen.
  • Jobb: Detta är affärslogikens jobb för att utföra en ETL-uppgift. Denna affärslogik är skriven internt av Apache Spark med python- och scala-språk.
  • Trigger: En ETL-trigger är en enhet som initierar exekvering av ett ETL-jobb på begäran eller vid en viss tidpunkt.
  • Slutpunkt för utveckling: Detta skapar en miljö där ETL-jobbskriptet testas, utvecklas och felsöks.

Fördelar med AWS-lim

Det här är fördelarna med att använda det på din arbetsplats eller inom en organisation.

  • AWS Glue skannar all tillgänglig data med en sökrobot.
  • Slutbearbetade data kan lagras på många ställen (Amazon RDS och Amazon Redshift, Amazon S3, etc.
  • Det är en molnbaserad tjänst. Det finns inget behov av att spendera pengar på infrastruktur på plats.
  • Eftersom det är en serverlös ETL är det ett kostnadseffektivt val.
  • Det är snabbt. Det ger dig omedelbart Python/Scala ETL-koden.

Toppegenskaper hos AWS Lim?

Amazon Glue har alla funktioner du behöver för att integrera data så att du kan få bättre insikter och använda din kunskap för att göra nya framsteg på några minuter istället för månader. Här är några av funktionerna som du bör känna till.

  • Dra och släpp-gränssnitt: En dra-och-släpp-jobbredigerare låter dig skapa en ETL-process. AWS Glue kommer omedelbart att bygga koden som behövs för att extrahera, konvertera och ladda upp data.
  • Automatisk Schema Discovery: För att skapa sökrobotar som ansluter till olika datakällor kan du använda Glue-tjänsten. Den organiserar data och extraherar relevant information. Dessa data kan sedan användas för att övervaka ETL-processer genom ETL-uppgifter.
  • Jobbschemaläggning: Lim kan antingen användas på begäran eller enligt ett schemalagt schema. Schemaläggaren kan användas för att bygga komplexa ETL-pipelines, vilket skapar beroenden mellan uppgifter.
  • Kodgenerering: Glue Elastic Views låter dig enkelt skapa materialiserade vyer som kombinerar och replikerar data från olika datakällor utan att behöva skriva någon egen kod.
  • Inbyggd maskininlärning: Lim kommer med en inbyggd maskininlärningsfunktion som kallas ”FindMatches”. Det deduplicerar poster som inte är perfekta kopior av varandra.
  • Utvecklarslutpunkter: Om du aktivt vill utveckla din ETL-kod tillhandahåller Glue utvecklarslutpunkter som låter dig modifiera, felsöka och testa koden den skapar.
  • Glue DataBrew: Det är ett dataförberedande verktyg som kan användas av dataanalytiker och datavetare för att hjälpa dem att rensa och normalisera data. Den använder Glue DataBrews aktiva och visuella gränssnitt.

Hur fungerar AWS limprissättning?

AWS Glue tar ut en timavgift, som faktureras per sekund för sökrobotar (upptäcker data) och ETL-jobb (bearbetar och laddar data). En enkel månadsavgift tas ut för att komma åt och lagra metadata i AWS Glue Data Catalog.

Amazon Glue börjar på $0,44. Du kan välja mellan fyra planer:

  • ETL-uppgifter, utvecklingsslutpunkter och andra ETL-uppgifter är tillgängliga för $0,44
  • Crawlers interaktiva sessioner är tillgängliga för $0,44
  • DataBrew-jobb börjar på $0,48
  • Månadslagring och förfrågningar till datakatalogen kostar $1,00

AWS erbjuder inte en gratis Glue-plan. Varje timme kommer att kosta $0,44 per DPU. I genomsnitt skulle det kosta dig 21 USD per dag. Priserna kan variera beroende på var du bor.

Steg för att ställa in AWS Glue

Datakatalogen kan användas för att snabbt hitta och söka i flera AWS-datauppsättningar utan att behöva flytta data. Efter att data har katalogiserats är de omedelbart tillgängliga för sökning och sökning med Amazon Athena och Amazon EMR.

Ref: https://aws.amazon.com/glue/

  • Amazon Redshift, Amazon S3, Amazon RDS och databaser på Amazon EC2 – Upptäck dina data, lagra metadata och använd AWS Glue Data Catalog för att upptäcka dem
  • AWS Glue Data Catalog – Hantera data med datakatalogen som fungerar som ett centralt arkiv för metadata
  • AWS Glue ETL – Läs och skriv metadata till din datakatalog
  • Amazon Athena och Amazon Redshift, Amazon EMR, Amazon ETL – Skaffa datakatalogen för ETL, analyser och mer.

Hur ställer jag in AWS-lim?

Logga först in på AWS Management Console och öppna IAM-konsolen. Klicka på Skapa roll. För rolltyp, hitta Glue och välj Behörigheter.

Jag väljer AWSGlueServiceRole för allmänna AWS Glue Studio- och AWS Glue-behörigheter och den AWS-hanterade policyn AmazonS3FullAccess för åtkomst till Amazon S3-resurser.

Ange ett rollnamn.

Klicka på Skapa roll.

Skapa en Amazon S3-hink.

Skapa en mapp i S3-hinken.

Välj filen att ladda upp.

Till sist laddar du upp filen i hinken.

Öppna sedan AWS Glue från AWS-hanteringskonsolen och skapa en databas.

Nu när du har en databas i AWS Glue, skapa en sökrobot.

I datakällan väljer du S3-bucket som du skapade.

Välj sedan IaM-rollen för AWS Glue som du skapade i början.

Slutligen, i utgången, välj gluedb du skapade.

Granska alla inställningar och skapa sökroboten.

När sökroboten har skapats, välj den och klicka på Kör. Efter en tid får du statusen klar.

Genom att köra sökroboten får databasen en tabell med all data från CSV-filen.

När du klickar på visa data kommer du att föras till Amazon Athena (frågeredigerare). När du kör frågan kan du se tabelldata.

Nu kan du framgångsrikt använda denna AWS Glue-crawler i alla ETL-jobb.

Vad är AWS Glue Databrew?

AWS Glue DataBrew tillåter användare att normalisera och rensa data utan att skriva någon kod. DataBrew kan minska tiden som krävs för att förbereda data för maskininlärning och analys med så mycket som 80 procent jämfört med specialutvecklad dataförberedelse.

Det finns över 250 förgjorda datatransformationer som kan användas för att automatisera databeredningsuppgifter som att filtrera bort anomalier, korrigera ogiltiga värden och konvertera data till standardformat.

DataBrew gör det enklare för datavetare, affärsanalytiker och ingenjörer att samarbeta för att extrahera insikter från rådata. DataBrew är serverlöst, så du behöver inte hantera infrastruktur eller skapa kluster för att utforska och omvandla rådata till ett värde av terabyte.

DataBrew-funktioner för företag

Visualiserad dataförberedelse

DataBrew är ett annat sätt att visa data som vanligtvis visas i kolumnära databaser som alfanumeriska siffror. DataBrew visualiserar alla inlästa datakällor för att hjälpa dig förstå datarelationerna och hierarkin.

250+ databeredningsautomatiseringar

Dataforskare förväntas följa en mängd olika repeterbara, isolerade arbetsflöden som en del av sitt jobb. Dessa arbetsflöden och processer har modellerats av AWS som språk- och dataagnostiska modulmoduler. Detta bibliotek innehåller åtgärder som kan användas av slutanvändare.

Data härstamning

I likhet med granskningsloggar som används för att spåra kundaktivitet i ett IT-nätverks IT-nätverk, låter datalinje dig spåra datatransformationsaktiviteterna inom AWS DataBrew. Denna information inkluderar datakällan, de transformationer som tillämpats och datautgången, inklusive målplatsen.

Datakartläggning

Databrew låter dig hitta matchande fält i två datakällor. När matchande fält har identifierats kan de laddas in i ett schema.

AWS Glue DataBrew: Fördelar

Nedan är funktionerna i AWS Glue DataBrew:

  • Lägre inträdesbarriär för dataförberedelse
  • Automatiserad dataprofilgenerering
  • Automatisera 250+ databeredningsprocesser
  • Intelligenta receptbelagda förslag

Alternativ till AWS-lim

Luftflöde

Airflow tillhör avsnittet Workflow Manager i en teknisk stack. Det är ett verktyg med öppen källkod som stöder GitHub-stjärnor, GitHub-gafflar och andra funktioner. Airflow låter dig skapa arbetsflöden med hjälp av riktade acykliska diagram (DAG). Airflow Scheduler utför dina uppgifter med hjälp av en rad arbetare och följer de angivna beroenden.

Matillion

Matillion ETL, ett ETL/ELT-verktyg, designades uttryckligen för molndatabasplattformar som Amazon Redshift och Google BigQuery. Det är ett modernt webbläsarbaserat användargränssnitt med kraftfulla push-down ETL/ELT-funktioner. Du kan vara igång på några minuter med en snabb installation.

Sy

Stitch är en öppen källkod ETL-tjänst som kopplar samman flera datakällor och replikerar data till föredragna destinationer. Det är väldigt lätt att använda, eftersom du inte behöver någon kodningskunskap för att flytta data mellan källor och destinationer i Stitch. Det är lätt att använda, har ett vänligt GUI och det är snabbt.

Stitch låter dig inte välja en färdig instrumentpanel, till skillnad från andra ETL-verktyg. Istället måste du integrera dina data i de öppna datalager som du väljer som destination. Det kan vara svårt att navigera i inventeringarna.

Alteryx

Alteryx är en analysautomatiseringsplattform som hjälper till med förberedelse och blandning av datainsamling. Dessa data kan användas för att påskynda processer och ge affärsinsikter. Eftersom det är ett dra-och-släpp-verktyg behöver du ingen programmeringskunskap. Alteryx är ett bra ställe att gå till för råd och svar från branschfolk.

Slutsats

Så det handlade om AWS Glue, som är en molnbaserad lösning som låter dig arbeta med ETL-pipelines. Sammanfattningsvis består AWS Glue användarinteraktionsprocessen av tre faser. För att skapa en datakatalog använder du först datasökare. Därefter skapar du ETL-koden som krävs av AWS-datapipeline. Slutligen skapas sedan ETL-schemat. Jag hoppas att den här bloggen gav dig en bra översikt över Amazon Glue.

Du kan också utforska de bästa tipsen för att säkra AWS S3-lagring.