En introduktionsguide till tidsseriedata

”Tid” är en avgörande variabel när det kommer till dataackumulering. I tidsserieanalys är tid en viktig del av data.

Vad är tidsseriedata?

Tidsseriedata avser en serie datapunkter som är ordnade i tid. Det introducerar ett ordningsberoende mellan en uppsättning observationer. Tidsserier är allestädes närvarande i dagens datadrivna värld. Eftersom varje händelse följer tidens pil, är vi i ständig interaktion med en mängd olika tidsseriedata.

Tidsserier antas generellt genereras med regelbundna tidsintervall och kallas för vanliga tidsserier. Data inom den tidsserien behöver dock inte genereras med jämna mellanrum. Sådana fall omfattar oregelbundna tidsserier där data följer en temporärt fasad sekvens. Detta innebär att mätningar kanske inte sker med jämna mellanrum. Data kan dock genereras med diskreta tidsintervall eller som en skur. Bankomatuttag eller kontoinsättningar är exempel på oregelbundna tidsserier.

Tekniskt sett förändras en eller flera variabler i en tidsserie under en given tidsperiod. Om en enskild variabel varierar över tiden kallas den för Univariate tidsserier. Tänk till exempel på en sensor som mäter temperaturen i ett rum varje sekund. Här genereras endast ett endimensionellt temperaturvärde vid varje ögonblick (dvs. sekund). Tvärtom, när mer än en variabel förändras över tiden kallas det en multivariabel tidsserie. Tänk till exempel på bankekonomi. I sådana fall används multivariata tidsserier för att förstå hur policyändringar av en variabel, såsom reporänta, kan påverka andra variabler (dvs. låneutbetalningar för affärsbanker).

Tidsseriedata hittar sin tillämpning inom alla discipliner, från finans, geologi, meteorologi, tillverkning till datorer, IoT, fysik och samhällsvetenskap. Den används för att spåra väderförändringar, födelsetal, dödlighet, marknadsfluktuationer, nätverksprestanda och många andra applikationer. Några av dess huvudsakliga användningsfall inkluderar övervakning, prognoser och upptäckt av anomalier. Till exempel spelar tidsserieprognoser en avgörande roll för att bestämma populariteten för databashanteringssystem. Figuren nedan visar den växande populariteten för DBMS under åren (2019-2021) i en tidsserieplot.

https://www.influxdata.com/time-series-database/

Nyckelkomponenter i tidsserier

De faktorer som påverkar värdena för en observation i en tidsserie behandlas som deras nyckelkomponenter. De tre kategorierna av komponenter inkluderar:

  • Trend eller Långsiktiga rörelser
  • Kortvariga rörelser
  • Säsongsvariationer
  • Cykliska variationer
  • Slumpmässiga eller oregelbundna rörelser
  • Trend

    Tendensen hos data att öka eller minska under en lång tidsperiod kallas en trend eller en långsiktig komponent. Det är dock viktigt att notera att den uppåtgående eller nedåtgående rörelsen inte nödvändigtvis behöver vara i samma riktning under en given tidsperiod.

    Tendenserna kan antingen stiga, falla eller förbli stabila över olika tidsperioder. Den övergripande trenden måste dock alltid motsvara ett uppåtgående, nedåtgående eller stabilt mönster. Sådana rörelsetendenser är uppenbara i exemplen som jordbruksproduktivitet, dödsfrekvens, tillverkade enheter, antal fabriker etc.

    Linjär och icke-linjär trend

    Att plotta tidsserievärden mot tid i en graf avslöjar typen av trend baserat på mönstret för dataklustring. Om dataklustret är mer eller mindre runt en rät linje, så kallas trenden som en linjär trend. Annars visar dataklustermönstret en icke-linjär trend eftersom förändringsförhållandet mellan två variabler inte är stabilt eller konstant. Därför kallas sådana trender också kurvlinjära korrelationer.

    Kortsiktiga rörelser

    I en tidsserie tenderar dessa komponenter att upprepa sig över en tidsperiod. De har oregelbundna korta skurar och påverkar de variabler som studeras. De två kategorityperna under kortsiktig rörelse inkluderar:

    Säsongsvariationer

    Dessa versioner fungerar regelbundet och periodiskt under en period på mindre än ett år. De tenderar att ha ett liknande eller nästan samma mönster under en 12-månadersperiod. Sådana variationer blir en del av en tidsserie om uppgifterna registreras regelbundet, dvs varje timme, dagligen, veckovis, månadsvis eller kvartalsvis.

    Säsongsvariationer är antingen konstgjorda eller naturligt förekommande. Olika årstider eller klimatförhållanden spelar en avgörande roll i sådana variationer. Till exempel är växtodlingen helt beroende av säsonger. På samma sätt beror marknaden för ett paraply eller regnrock på regnperioden, medan försäljningen av kylare och AC-enheter når sin topp under sommarsäsongen.

    Människoskapade konventioner inkluderar festivaler, fester och tillfällen som äktenskap. Sådana kortvariga händelser återkommer år efter år.

    Cykliska variationer

    Tidsserievariationer som tenderar att fungera över en period på mer än ett år kallas cykliska variationer. För ett företag betraktas en hel period som ”affärscykeln”. Toppen eller nedgången i affärsresultat beror på olika faktorer som ekonomisk struktur, företagsledning och andra samverkande krafter. Dessa cykliska affärsvariationer kan vara regelbundna men inte periodiska. I allmänhet genomgår företag en fyrfasig cyklisk process som omfattar välstånd, lågkonjunktur, depression och väckelse.

    Sådana cykliska variationer är integrerade i ett tidsseriemönster eftersom affärsutveckling i hög grad är beroende av de genererade ”sekventiella datapunkterna”.

    Slumpmässiga eller oregelbundna rörelser

    Slumpmässiga komponenter orsakar en signifikant variation i variabeln som observeras. Dessa är rent oregelbundna fluktuationer utan något fastställt mönster. Krafterna är oförutsedda, oförutsägbara och oregelbundna till sin natur – till exempel jordbävningar, översvämningar, hungersnöd och andra katastrofer.

    Slumpmässiga händelser som beskrivs ovan analyseras med hjälp av källtidsseriedata för att bättre hantera sådana verkliga scenarier som kan inträffa i framtiden.

    Typer av tidsserier

    Tidsseriedata kan delas in i fyra typer, deterministisk, icke-deterministisk, stationär och icke-stationär. Låt oss ta en titt på varje typ i detalj.

    #1. Deterministisk tidsserie

    En deterministisk tidsserie kan beskrivas med ett analytiskt uttryck. Det involverar inte slumpmässiga eller probabilistiska aspekter. Matematiskt kan det uttryckas exakt för alla tidsintervall i termer av en Taylor-serieexpansion. Detta är möjligt om alla dess derivator är kända vid någon godtycklig tidpunkt. Dessa derivat specificerar uttryckligen det förflutna och framtiden vid den tiden. Om alla villkor är uppfyllda är det möjligt att exakt förutsäga dess framtida beteende och analysera hur det betedde sig tidigare.

    #2. Icke-deterministiska tidsserier

    En icke-deterministisk tidsserie har en slumpmässig aspekt associerad med sig som förhindrar dess explicita beskrivning. Därför är analytiska uttryck inte tillräckligt genomförbara lösningar för att uttrycka en sådan tidsserie. En tidsserie kan vara icke-deterministisk av följande skäl:

  • Den information som krävs för att beskriva den är inte tillgänglig i sin helhet. Även om data i princip kan förekomma, kan de inte behandlas som explicit kvantifierbara.
  • Datagenereringsprocessen är slumpmässig till sin natur.
  • På grund av den slumpmässiga faktorn lyder den icke-deterministiska tidsserien probabilistiska lagar. Därför behandlas uppgifterna i statistiska termer – vilket innebär att data definieras av sannolikhetsfördelningar och medelvärden av olika former. Detta inkluderar medel och spridningsmått, dvs varianser.

    #3. Stationär tidsserie

    I en stationär tidsserie är de statistiska egenskaperna såsom medelvärde, varians och andra inte beroende av tidsaspekten. En stationär tidsserie är lättare att förutsäga eftersom man med säkerhet kan konstatera att dess statistiska egenskaper kommer att förbli desamma som de har observerats tidigare. Därför baseras olika statistiska prognosmetoder på argumentet att tidsserien nästan är stationär. Detta innebär att tidsserierna kan betraktas som stationära i approximation genom att tillämpa enkla matematiska transformationer.

    #4. Icke-stationära tidsserier

    I en icke-stationär serie varierar de statistiska egenskaperna med tiden. Därför faller tidsserierna med trender, eller säsongsvariationer, under den icke-stationära kategorin eftersom trenden och säsongsvariationen kan påverka värdet av tidsserien vid olika tidsintervall. Icke-stationära tidsserier beskriver oförutsägbar data, vilket förhindrar att den modelleras eller prognostiseras.

    https://www.oreilly.com/library/view/hands-on-machine-learning/9781788992282/15c9cc40-bea2-4b75-902f-2e9739fec4ae.xhtml

    Tidsserieanalys och prognoser

    Tidsserieanalys och prognoser är praktiska verktyg för att observera, analysera och studera utvecklingen och dynamiken hos vitala processer och objekt av olika slag. Låt oss titta på var och en mer på djupet.

    Tidsserieanalys

    Tidsserieanalys definieras som en process för att analysera data som samlats in under en tidsperiod. Här registrerar dataanalytiker data i konstanta intervall över en bestämd tidsperiod. Dataobservationshastigheten, dvs tidsintervallet, kan variera från sekunder till år.

    Tidsseriedata beskriver variabler under inspektion eftersom de ger en detaljerad analys av det fluktuerande mönstret över en specifik tidsperiod. De parametrar som krävs för analys kan variera mellan olika domäner och discipliner. Några av exemplen kan inkludera:

    • Vetenskapliga instrument – ​​Data registreras per dag
    • Kommersiell webbplats – Kundbesök per dag
    • Börs – Aktievärden per vecka
    • Säsong – Regniga dagar per år

    För att säkerställa konsekvens och tillförlitlighet arbetar tidsserieanalys på stora mängder datapunkter. En bra urvalsstorlek är en subtil representation av äktheten av en upptäckt trend eller ett mönster.

    Dessutom är tidsserieanalys också lämpad för att förutsäga framtida händelser baserat på tidigare registrerade data.

    Tidsserieprognoser

    Tidsserieanalys gör att organisationer kan identifiera grundorsaken till fluktuationer i trender över tid. Med data i handen kan företag sedan studera och forska vidare för att bättre förstå hur man tacklar okända trender och förutser kommande händelser. Företag använder i allmänhet datavisualiseringstekniker för att fastställa sådana anomalier i data.

    Tidsserieprognoser kretsar kring två viktiga faktorer:

  • Förutse framtida händelser baserat på tidigare databeteende.
  • Antag att de kommande trenderna kommer att ha likheter med tidigare datamönster.
  • Inom prognoser är det primära målet att i huvudsak förutsäga hur datapunkterna kommer att fortsätta att vara desamma eller variera i framtiden. Här är några exempel från olika industrisektorer för att bättre förstå nyanserna av tidsserieanalys och prognoser.

    • Aktiemarknad – Prognoser slutkursen varje dag.
    • Försäljning – Förutsäg produktförsäljning för en butik varje dag.
    • Prissättning – Prognoser det genomsnittliga bränslepriset varje dag.

    Några av de vanliga statistiska teknikerna som används för tidsserieprognoser inkluderar enkelt glidande medelvärde (SMA), exponentiell utjämning (SES), autoregressivt integrerat glidande medelvärde (ARIMA) och neuralt nätverk (NN).

    Tidsseriedata i molnet

    För att avslöja värdet av tidsseriedata bör företag kunna lagra och söka efter data snabbt. Kapitalmarknadsföretag förlitar sig på stora volymer historisk och strömmande data för att använda dataanalys i realtid och fatta slagkraftiga affärsbeslut. Detta kan innebära att förutsäga sårbarhet vid aktiekurser, bestämma nettokapitalkrav eller prognostisera växelkurser. För att tillhandahålla flexibilitet och bearbeta data sömlöst väljer många företag att migrera sina tidsseriedatabaser till molnet.

    Med migreringen av tidsseriedatabaser till moln kan organisationer få tillgång till obegränsade resurser på begäran. Det tillåter företag att använda hundratals kärnor för att utföra sin uppgift som maximerar nätverkets genomströmning utan latensproblem.

    Tidsseriedatabaser i molninfrastrukturen är lämpliga för datorintensiva arbetsbelastningar. Detta inkluderar att utföra riskberäkningar som svar på marknadstrender i realtid. Finansiella företag kan göra sig av med datacentrets overhead och noll på att använda resurser för att förbättra produktiviteten för sina arbetsbelastningar.

    Molnleverantörer som AWS tillhandahåller Amazon Timestream, en tidsseriedatabastjänst som möjliggör enkel laddning, lagring och analys av tidsseriedatauppsättningar. De erbjuder lagring för att hantera transaktionsintensiva arbetsbelastningar, analysverktyg i realtid och dataströmningsfunktioner för att visa händelser när och när de inträffar.

    Därför förstärker och skalar molninfrastruktur fördelarna med tidsseriedata.

    Tillämpningar av tidsserier

    Tidsseriemodeller har två syften,

  • Förstå de underliggande faktorerna som producerade ett visst datamönster.
  • Baserat på analysen, anpassa en modell att prognostisera och övervaka.
  • Låt oss titta på några av tillämpningsfallen för tidsseriedata.

    #1. Tidsserier inom finans- och affärsområde

    Alla finansiella, affärs- och investeringsbeslut fattas baserat på aktuella marknadstrender och efterfrågeprognoser. Tidsseriedata används för att förklara, korrelera och förutsäga den dynamiska finansmarknaden. Finansiella experter kan granska den finansiella informationen för att ge prognoser för applikationer som hjälper till att minska risken, stabilisera prissättning och handel.

    Tidsserieanalys spelar en nyckelroll i finansiell analys. Det används i ränteförutsägelser, förutsäger volatiliteten på aktiemarknaderna och många fler. Affärsintressenter och beslutsfattare kan fatta välgrundade beslut om tillverkning, inköp, resursallokering och optimera sin affärsverksamhet.

    Denna analys används effektivt inom investeringssektorn för att övervaka värdepappersräntorna och deras fluktuationer över tiden. Säkerhetspriset kan också observeras på kort sikt (dvs. registrera data per timme eller dag) eller på lång sikt (dvs observation sträckt över månader eller år). Tidsserieanalys är ett användbart verktyg för att spåra hur ett värdepapper, tillgång eller ekonomisk variabel presterar över en längre tidsperiod.

    #2. Tidsserie i medicinsk domän

    Sjukvården växer snabbt fram som ett datadrivet område. Förutom finansiell och affärsanalys utnyttjar den medicinska domänen i hög grad tidsserieanalys.

    Överväg ett scenario som kräver en synergi av tidsseriedata, medicinskt anpassade procedurer och datautvinningstekniker vid behandling av cancerpatienter. Ett sådant hybridramverk kan användas för att utnyttja funktionsextraktionsfunktioner från insamlade tidsseriedata (dvs patientens röntgenbilder) för att spåra patientens framsteg och svar på behandlingar som tillhandahålls av det medicinska brödraskapet.

    Inom hälso- och sjukvården är det av avgörande betydelse att härleda slutsatser från de ständigt föränderliga tidsseriedata. Dessutom kräver avancerad medicinsk praxis att patientjournaler ansluts över tid för bättre synlighet av patientens hälsa. Dessutom måste patientens hälsoparametrar registreras exakt med jämna mellanrum för att få en tydligare bild av patientens hälsotillstånd.

    Med avancerade medicinska instrument på plats har tidsserieanalys etablerat sig inom sjukvårdsdomänen. Betrakta nedanstående exempel,

    • EKG-enheter: Enheter som uppfunnits för att övervaka hjärttillstånd genom att registrera hjärtats elektriska pulser.
    • EEG-enheter: Enheter som används för att kvantifiera elektrisk aktivitet i hjärnan.

    Sådana enheter har gjort det möjligt för läkare att utföra tidsserieanalys för snabbare, effektiv och korrekt medicinsk diagnos.

    Dessutom, med tillkomsten av IoT-enheter som bärbara sensorer och bärbara sjukvårdsenheter, kan människor nu göra regelbundna mätningar av sina hälsovariabler över tid med minimala indata. Detta leder till en konsekvent datainsamling av tidsberoende medicinska data för både sjuka och friska individer.

    #3. Tidsserie i astronomi

    Astronomi och astrofysik är de två moderna disciplinerna där tidsseriedata utnyttjas avsevärt.

    I grunden innebär astronomi att rita upp kosmiska objekts banor och himlakroppar och utföra exakta mätningar för att bättre förstå universum bortom jordens atmosfär. På grund av detta krav är astronomiska experter skickliga i att hantera tidsseriedata samtidigt som de kalibrerar och konfigurerar komplexa instrument och studerar astronomiska objekt av intresse.

    Tidsseriedata har länge förknippats med astronomiområdet. År 800 f.Kr. samlades solfläcktidsseriedata in med jämna mellanrum. Sedan dess var tidsserieanalys van vid

    • Upptäck avlägsna stjärnor baserat på stjärnavstånd,
    • Observera kosmiska händelser som supernovor för att bättre förstå ursprunget till vårt universum.

    Tidsseriedata, i det här fallet, relaterar till våglängderna och intensiteten av ljus som avges av stjärnor, himlakroppar eller föremål. Astronomer övervakar ständigt sådana liveströmmande data för att upptäcka kosmiska händelser i realtid när och när de inträffar.

    På senare tid har forskningsområden som astroinformatik och astrostatistik dykt upp, som blandar olika discipliner som datautvinning, maskininlärning, beräkningsintelligens och statistik. Inom dessa nya forskningsområden är tidsseriedatas roll att upptäcka och klassificera astronomiska objekt snabbt och effektivt.

    #4. Tidsserie i väderprognoser

    Aristoteles studerade vädermönster utförligt för att bättre förstå orsakerna och effekterna som observerades i väderförändringar i antiken. Allt eftersom dagarna fortskred började forskare registrera väderrelaterade data på instrument som ”barometer” för att beräkna atmosfäriska variabler. Uppgifterna samlades in med jämna mellanrum och förvarades på olika platser.

    Med tiden började väderprognoser så småningom dyka upp i tidningar. Snabbspolning framåt till dagens dag och ålder installeras allestädes närvarande väderprognosstationer i olika geografier runt om i världen för att samla in exakta vädervariabler.

    Sådana stationer har avancerade funktionella enheter som är sammankopplade för att samla in och korrelera väderdata från olika platser. Korrelerade data används för att förutsäga väderförhållanden vid varje tidpunkt beroende på krav.

    #5. Tidsserie i affärsutveckling

    Tidsseriedata gör det möjligt för företag att fatta affärsbeslut. Detta uppnås när processen analyserar tidigare data för att härleda framtida händelser och kasta ljus över troliga möjligheter. Det tidigare datamönstret används för att härleda följande parametrar:

    • Affärstillväxt: För att utvärdera det övergripande finansiella och affärsmässiga resultatet och mäta tillväxt är tidsseriedata den mest lämpliga och tillförlitliga tillgången.
    • Uppskattning av trend: Olika tidsseriemetoder kan användas för att uppskatta framväxande trender. Tänk till exempel på att dessa metoder analyserar dataobservationer över en tidsperiod för att reflektera över en ökning eller minskning av försäljningen av en viss elektronisk enhet.
    • Avslöja säsongsmönster: De registrerade datapunkterna kan avslöja fluktuationer och säsongsmönster som kan hjälpa till med dataprognoser. Den erhållna datainformationen spelar en nyckelroll för marknader där produktpriserna fluktuerar säsongsmässigt. Sådana uppgifter kan hjälpa företag med bättre produktplanering och utveckling.

    Slutsats 👨‍🏫

    Sammanfattningsvis kan tidsseriedata ses som egenskaperna hos komplexa datapunkter som samlats in under en konstant tidsperiod. Tidsserieanalys, modellering och prognoser har blivit en integrerad del av vår vardag med framväxten av IoT-prylar, smarta hushållsapparater och bärbara enheter. Dessutom hittar tidsseriedata sin tillämpning inom olika områden, inklusive hälsovård, astrofysik, ekonomi, teknik, affärer och många fler.