Thursday 12 October 2017

Moving Gjennomsnittet Funksjon Matlab


Denne opplæringen diskuterer hvordan du bruker MATLAB til bildebehandling. Noen kjennskap til MATLAB antas (du bør vite hvordan du bruker matriser og skrive en M-fil). Det er nyttig å ha MATLAB Image Processing Toolbox, men heldigvis behøver ingen verktøykasser for de fleste operasjoner. Kommandoer som krever Image Toolbox er angitt med Image Toolbox. Bilderepresentasjon Det finnes fem typer bilder i MATLAB. Gråtoner. Et gråtonebilde M piksler høy og N piksler bredt er representert som en matrise av dobbel datatype av størrelse M N. Elementverdier (for eksempel MyImage (m, n)) angir pixelgråskalaintensiteter i 0,1 med 0 svart og 1 hvitt. Truecolor RGB. Et truecolor rød-grønt-blå (RGB) bilde er representert som en tredimensjonal M N 3 dobbeltmatrise. Hver piksel har røde, grønne, blå komponenter langs den tredje dimensjonen med verdier i 0,1, for eksempel er fargekomponentene i piksel (m, n) MyImage (m, n, 1) rød, MyImage (m, n, 2) grønn, MyImage (m, n, 3) blue. Indexed. Indekserte (palettede) bilder er representert med en indeksmatrise av størrelse M N og en kolormapmatrise av størrelse K 3. Colormapet inneholder alle fargene som brukes i bildet, og indeksmatrisen representerer pikslene ved å referere til farger i colormap. For eksempel, hvis den 22. fargen er magenta MyColormap (22, :) 1,0,1. så er MyImage (m, n) 22 en magenta-farget pixel. Binary. Et binært bilde representeres av en M N logisk matrise hvor pikselverdier er 1 (sant) eller 0 (falsk).uint8. Denne typen bruker mindre minne, og noen operasjoner beregner raskere enn med dobbelte typer. For enkelhets skyld diskuterer ikke denne opplæringen uint8 videre. Gråskala er vanligvis det foretrukne formatet for bildebehandling. I tilfeller som krever farge, kan et RGB-fargebilde dekomponeres og håndteres som tre separate gråtonebilder. Indekserte bilder må konverteres til gråtoner eller RGB for de fleste operasjoner. Nedenfor er noen vanlige manipulasjoner og konverteringer. Noen få kommandoer krever Image Toolbox og er angitt med Image Toolbox. Lese og skrive bildefiler MATLAB kan lese og skrive bilder med kommandoerene imread og imwrite. Selv om et rettferdig antall filformater støttes, er noen ikke. Bruk imformater for å se hva installasjonen din støtter: Når du leser bilder, er et uheldig problem at imaterialet returnerer bildedataene i uint8 datatype, som må konverteres til dobbel og rescaled før bruk. Så i stedet for å kalle imread direkte, bruker jeg følgende M-fil-funksjon for å lese og konvertere bilder: Høyreklikk og lagre getimage. m for å bruke denne M-funksjonen. Hvis bildet baboon. png er i den nåværende katalogen (eller et sted i MATLAB søkeveien), kan du lese det med MyImage getimage (baboon. png). Du kan også bruke delvise baner, for eksempel hvis bildet er i lt nåværende katalog gtimages med getimage (imagesbaboon. png). Hvis du vil skrive et gråskala eller RGB-bilde, må du passe på at MyImage er en dobbel matrise med elementer i 0,1if feil skalert, den lagrede filen vil trolig være tom. Når jeg skriver bildefiler, anbefaler jeg at du bruker PNG-filformatet. Dette formatet er et pålitelig valg fordi det er lossless, støtter truecolor RGB, og komprimerer ganske bra. Bruk andre formater med forsiktighet. Grunnleggende operasjoner Nedenfor er noen grunnleggende operasjoner på et gråtonebilde u. Kommandoer som krever Image Toolbox er angitt med Image Toolbox. (Merk: For en rekkefølge betyr syntaksen u (:) at du ruller inn i en kolonnevektor. For eksempel hvis du er 1,50,2, så er du (:) 1052.) For eksempel brukes bildesignalstyrken i Beregning av signal / støyforhold (SNR) og toppsignal / støyforhold (PSNR). Gitt rent bilde uclean og støyreduktet bilde du, Vær forsiktig med normen. Oppførselen er norm (v) på vektor v beregner sqrt (sum (v.2)). men norm (A) på matrise A beregner den induserte L 2 matrisen normen, så normen (A) er absolutt ikke sqrt (sum (A (:). 2)). Det er likevel en lett feil å bruke norm (A) der den skulle ha vært norm (A (:)). Lineære filtre Linjær filtrering er hjørnesteinsteknikken for signalbehandling. For kort introduksjon er et lineært filter en operasjon hvor ved hver piksel x m, n av et bilde, blir en lineær funksjon evaluert på piksel og naboene for å beregne en ny pikselverdi y m, n. Et lineært filter i to dimensjoner har den generelle formen hvor x er inngangen, y er utgangen, og h er filterimpulsresponsen. Ulike valg av h fører til filtre som glatter, skjerper og oppdager kanter, for å nevne noen få applikasjoner. Høyre side av ligningen ovenfor er betegnet konsistent som h x og kalles konvolusjonen av h og x. Spatial-domain-filtrering To-dimensjonell lineær filtrering er implementert i MATLAB med conv2. Dessverre kan conv2 bare håndtere filtrering nær bildegrenser ved nullpoling, noe som betyr at filtreringsresultater vanligvis ikke er upassende for piksler nær grensen. For å omgå dette kan vi legge inn bilde og bruke det gyldige alternativet når du ringer conv2. Følgende M-funksjon gjør dette. Høyreklikk og lagre conv2padded. m for å bruke denne M-funksjonen. Her er noen eksempler: Et 2D filter h sies å være separerbart hvis det kan uttrykkes som ytterproduktet av to 1D-filtre h1 og h2. det er, h h1 (:) h2 (:). Det er raskere å passere h1 og h2 enn h. som det er gjort over for det glidende gjennomsnittsvinduet og det gaussiske filteret. Faktisk er Sobel filtre hx og han også separablewhat er h1 og h2 Fourier-domene filtrering. Spatial-domene filtrering med conv2 er lett en kostnadseffektiv drift. For et K K filter på et M N bilde koster conv2 O (MNK 2) tillegg og multiplikasjoner, eller O (N 4) antar M N K. For store filtre er filtrering i Fourier-domenet raskere siden beregningskostnaden reduseres til O (N 2 log N). Ved bruk av convolution-multiplikasjonsegenskapen til Fourier-transformasjonen beregnes konvolusjonen tilsvarende. Resultatet er ekvivalent med conv2padded (x, h) unntatt nær grensen, hvor den ovennevnte beregningen benytter periodisk grenseutvidelse. Fourier-basert filtrering kan også gjøres med symmetrisk grenseforlengelse ved å reflektere inngangen i hver retning: (Merk: En enda mer effektiv metode er FFT overlap-add filtrering. Signal Processing Toolbox implementerer FFT overlap-add i en dimensjon i fftfilt .) Ikke-lineære filtre Et ikke-lineært filter er en operasjon der hver filtrert piksel ym, n er en ikke-lineær funksjon av xm, n og naboene. Her diskuteres kort noen få typer av ikke-lineære filtre. Ordne statistikkfiltre Hvis du har Image Toolbox, kan ordningsstatistikkfiltre utføres med ordfilt2 og medfilt2. Et ordningsstatistikkfilter sorterer pikselverdiene over et nabolag og velger den største verdi. Min-, max - og medianfiltrene er spesielle tilfeller. Morfologiske filtre Hvis du har Image Toolbox, implementerer bwmorph ulike morfologiske operasjoner på binære bilder, som erosjon, utvidelse, åpning, lukking og skjelett. Det er også kommandoer tilgjengelig for morfologi på gråtonebilder: imerode. imdilat og imtophat. blant andre. Bygg ditt eget filter Av og til vil vi bruke et nytt filter som MATLAB ikke har. Koden nedenfor er en mal for å implementere filtre. (Merk: En hyppig feilaktig påstand er at sløyfer i MATLAB er treg og bør unngås. Dette var engang sant, tilbake i MATLAB 5 og tidligere, men sløyfer i moderne versjoner er rimelig raske.) For eksempel er det alfa-trimmet gjennomsnittet filter ignorerer d 2 laveste og d 2 høyeste verdier i vinduet, og gjennomsnittlig gjenværende (2 r 1) 2 d-verdier. Filteret er en balanse mellom et medianfilter og et middelfilter. Det alfa-trimmet gjennomsnittet filteret kan implementeres i malmen. Som et annet eksempel er det bilaterale filteret En enkel (ad hoc) måte å bare ta et veid gjennomsnitt (justerbart av alfa) på hvert punkt med sine naboer: eller noe variasjon derav . Ja, for å være mer sofistikert kan du Fourier omforme dataene dine først, og deretter kutte av de høye frekvensene. Noe som: Dette kutter ut de høyeste 20 frekvensene. Vær forsiktig med å kutte dem ut symmetrisk, ellers er den omvendte transformasjonen ikke lenger ekte. Du må nøye velge cutoff frekvensen for riktig nivå av utjevning. Dette er en veldig enkel type filtrering (boksfiltrering i frekvensdomene), slik at du kan forsøke forsiktig å dempe høyfrekvensfrekvenser dersom forvrengningen ikke er akseptabel. Besvart 4. oktober 09 klokka 9:16 FFT er ikke en dårlig ide, men det er nok overkill her. Løpende eller bevegelige gjennomsnitt gir generelt dårlige resultater og bør unngås for alt annet enn sent lekser (og hvit støy). Id bruker Savitzky-Golay filtrering (i Matlab sgolayfilt (.)). Dette gir deg de beste resultatene for det du leter etter - noe lokalt utjevning, samtidig som du beholder kurven. GEOS 585A, Applied Time Series Analysis Telefon: (520) 621-3457 Faks: (520) 621-8229 Kontortid Fredag ​​1: 00-6: 00 PM (vennligst send epost til planlagt møte) Kursbeskrivelse Analyseverktøy i tids - og frekvensdomenene blir introdusert i sammenheng med prøve tidsserier. Jeg bruker et datasett av prøve tidsserier for å illustrere metoder, og endre datasett hvert semester kurset tilbys. I år kommer prøvedatabasen fra et NSF-prosjekt på snøscootervariabilitet i American River Basin of California. Dette datasettet inneholder trekringschronologier, klimaindekser, strømningsrekord og tidsserier av snøvannekvivalenter målt på snøbanestasjoner. Du vil sette sammen dine egne tidsserier for bruk i kurset. Disse kan være fra ditt eget forskningsprosjekt. Tilbake til toppen av siden Dette er et innledende kurs, med vekt på praktiske aspekter av tidsserieanalyse. Metoder er hierarkisk introdusert - starter med terminologi og utforskende grafikk, flyttes til beskrivende statistikk, og slutter med grunnleggende modelleringsprosedyrer. Emner inkluderer detrending, filtrering, autoregressiv modellering, spektralanalyse og regresjon. Du bruker de første to ukene til å installere Matlab på din bærbare datamaskin, få en grunnleggende introduksjon til Matlab, og sette sammen datasett av tidsserier for kurset. Tolv emner, eller leksjoner er da dekket, hver tildelt en uke eller to klasseperioder. Tolv klasseoppgaver går sammen med emnene. Oppgaver består av å anvende metoder ved å kjøre forhåndskrevne Matlab-skript (programmer) på tidsseriene og tolke resultatene. Kurset er 3 studiepoeng for studenter på campus ved University of Arizona i Tucson, og 1 studiepoeng for nettstudenter. Eventuelle tidsserier med konstant tidsforhøyelse (f. eks. Dag, måned, år) er en kandidat til bruk i kurset. Eksempler er daglige nedbørsmålinger, sesongmessig total strømning, sommermiddelluftemperatur, årlige indekser av trevekst, indekser for sjøoverflatetemperatur og den daglige høyden for en busk. Som et resultat av å ta kurset, bør du: forstå grunnleggende tidsserier konsepter og terminologi være i stand til å velge tidsserie metoder som er hensiktsmessige til mål å kunne kritisk evaluere vitenskapelig litteratur som bruker tidsserie metoder dekket har bedre forståelse av tidsserie egenskaper av din eget datasett kunne kortfattet oppsummere resultatene av tidsserieanalysen skriftlig Forutsetninger Et introduksjonsstatistikkkurs Tilgang til en bærbar datamaskin med evne til å ha Matlab installert på den Tillatelse fra instruktøren (undergraduate og online studenter) Andre krav Hvis du er på et universitet i Arizona (UA) student på campus i Tucson, har du tilgang til Matlab og nødvendige verktøykasser via et UA-nettstedslisens som ingen kostnadsprogramvare. Ingen tidligere erfaring med Matlab er nødvendig, og dataprogrammering er ikke en del av kurset. Hvis du er online, ikke på campus på UA, vil du kunne ta kurset i vår 2017 semester som en iCourse. Du må sørge for at du har tilgang til Matlab og de nødvendige verktøykassaene (se nedenfor) på ditt sted. Tilgang til internett. Det er ingen papirutveksling i kurset. Notater og oppgaver blir utvekslet elektronisk og gjennomførte oppgaver sendes elektronisk via University of Arizona Desire2Learn (D2L) - systemet. Matlab versjon. Jeg oppdaterer skript og funksjoner nå og da ved hjelp av gjeldende nettstedslisensutgave av Matlab, og oppdateringene kan bruke Matlab-funksjoner som ikke er tilgjengelige i tidligere Matlab-utgivelser. For 2017 bruker jeg Matlab versjon 9.1.0.441655 (R2016b). Hvis du bruker en tidligere utgave, må du kontrollere at det er Matlab Release 2007b eller høyere. I tillegg til de viktigste Matlab-pakken, brukes fire verktøykasser: Statistikk, Signalbehandling, Systemidentifikasjon, og enten Spline (Matlab Release 2010a eller tidligere), eller Kurvefitting (Matlab Release 2010b eller senere) Tilgjengelighet Kurset tilbys i vårsemester hvert annet år (2015, 2017, etc.). Det er åpent for studenter og kan også bli tatt av bachelor seniorer med tillatelse fra instruktøren. Registrering av bosatte UA-studenter er avkortet til 18 for vårferie 2017. Et lite antall nettstudenter har også vanligvis blitt innkvartert ved å tilby kurset på ulike måter. Måten nå er iCourse-lokalet beskrevet ovenfor. Tilbake til toppen av siden Kursoversikt (leksjoner) Tidsplanen lar vanligvis om to uker for å samle data og bli kjent med Matlab. Deretter er en uke (to klasseperioder) viet til hver av de 12 leksjonene eller emnene. Klassen møtes tirsdag og torsdag. Et nytt emne blir introdusert tirsdag, og fortsetter påfølgende torsdag. Torsdagsklassen slutter med en oppgave og en demonstrasjon av å kjøre skriptet på mine prøvedata. Oppdraget er forfalt (må lastes opp av deg til D2L) før klassen følgende tirsdag. Den første 12 timers tirsdagsklasse brukes til veiledning av selvbedømmelse og gradering av oppdraget og opplasting av vurderte (graderte) oppgaver til D2L. De resterende 45 minuttene brukes til å introdusere neste emne. Du må ta med din bærbare til klassen på tirsdager. De 12 leksjonene eller emnene som er dekket av kurset er oppført i klassebeskrivelsen. Nettstudenter forventes å følge samme tidsplan for innlevering av oppdrag som hjemmehørende studenter, men har ikke tilgang til forelesningene. Innleverte oppgaver av elektroniske studenter er ikke selvbestemte, men er gradert av meg. Nettstudenter skal ha tilgang til D2L for innlevering av oppgaver. Vår 2017 semester. Klasse møtes to ganger i uken i 75 minutters økter, 9: 00-10: 15 TTh, i rom 424 (Konferanserom) av Bryant Bannister Tree-Ring Building (bygning 45B). Den første dagen i klassen er jan 12 (torsdag). Den siste dagen i klassen er 2. mai (tirsdag). Det er ingen klasse i løpet av uken av Spring Break (11-19 mars). Du analyserer data av eget valg i klassetildelingene. Som nevnt i kursoversikten. Det er mye fleksibilitet i valg av tidsserier. Jeg vil lage en katalog over passende tidsserier tilgjengelig, men det er best å fokusere kurset på ditt eget datasett. Den første oppgaven innebærer å kjøre et skript som lagrer dataene og metadataene du har samlet i matfilen, det opprinnelige formatet til Matlab. Etterfølgende oppdrag tegner data fra matfilen for tidsserieanalyse. Oppgaver De 12 emnene behandles sekventielt i løpet av semesteret, som dekker ca 15 uker. Om de første to ukene (4-5 klassemøter) brukes det noen introduksjonsmateriale, bestemmer seg for og samler tidsseriene, og klargjør Matlab på den bærbare datamaskinen. Hver uke etter det er viet til en av de 12 emnene. Hver oppgave består i å lese et kapittel med notater, kjører et tilhørende Matlab-skript som bruker utvalgte metoder for tidsserieanalyse til dataene dine, og skriver opp tolkningen av resultatene. Oppgaver krever forståelse av forelesningsemner samt evne til å bruke datamaskinen og programvaren. Du sender inn oppgaver ved å laste dem opp til D2L før tirsdagskursen når neste emne blir introdusert. Den første halvtime av den tirsdagsklassen brukes til veiledning av selvoppgave av oppgaven, inkludert opplasting av selvoppgraderte pdfs til D2L. Jeg sjekker en eller flere av de selvoppgraderte oppgavene hver uke (ved tilfeldig utvalg), og kan endre karakteren. For å finne ut hvordan du får tilgang til oppgaver, klikk på oppdragsfiler. Lesingene består av notater. Det er tolv sett med. pdf notater filer. en for hvert emne. Disse. pdf-filene kan nås via nettet. Mer informasjon om de ulike emnene som er dekket i kurset, finner du ved hjelp av referanser som er oppført på slutten av hvert kapittel av notater. Karakterene er helt basert på ytelse på oppgavene, som hver er verdt 10 poeng. Det er ingen eksamener. Det totale antall mulige poeng for de 12 emnene er 12 x 10 120. En karakter på A kreves 90-100 prosent av mulige poeng. En klasse på B krever 80-90 prosent. En klasse på C krever 70-80 prosent, og så videre. Karakterene tilordnes ved selvvurdering styrt av en rubrik presentert i klassen. Antall poeng opptjent skal merkes øverst på hver karakterisert oppgave. Oppgavens oppgave skal inneholde annotasjon av eventuelle markdowns med henvisning til et rubrikpunkt som er illustrert i klassen (f. eks. -0,5, rp3 angir fradrag på -0,5 på grunn av en feil relatert til rubrik punkt 3). Oppgaver, gitt i klassen på torsdag, vil Forfaller (opplastet til D2L av deg) før starten av klassen følgende tirsdag. Den første halvtimen på tirsdagens møteperiode vil bli dedikert til presentasjon av en klassifisering, selvvurdering av gjennomførte oppgaver og opplasting av selvoppgraderte oppgaver til D2L. Denne timeplanen gir deg 4 dager å fullføre og laste opp oppdraget til D2L før kl. 9.00 tirsdag. D2L holder oversikt over tidspunktet for oppdraget ble lastet opp, og ingen straff er vurdert så lenge den lastes opp før 9:00 på tirsdag for forfallsdato. Hvis du har noen planlagte behov for å være borte fra klassen (f. eks. Oppmøte på en konferanse), er du ansvarlig for opplasting av oppdraget ditt før klokken 09:00 tirsdag den forfaller, og for opplasting av selvgradert versjon kl. 10:15 den samme dagen. Med andre ord, timeplanen er den samme som for elevene som er i klassen. Hvis en nødsituasjon kommer opp (for eksempel får du influensa) og kan ikke gjøre oppdraget eller vurderingen på skjema, vennligst send meg en e-post, og vi vil nå noen overnatting. Ellers vil en straff på 5 poeng (halvparten av de totale tilgjengelige poengene for øvelsen) bli vurdert. Introduksjon til tidsserier organisering av data for analyse En tidsserie er bredt definert som hvilken som helst serie av målinger tatt på forskjellige tidspunkter. Noen grunnleggende beskrivende kategorier av tidsserier er 1) lang vs kort, 2) selv tids-trinn vs ujevnt tidsrom, 3) diskret vs kontinuerlig, 4) periodisk vs aperiodisk, 5) stasjonær vs ikke-stationær, og 6) univariate vs multivariate . Disse egenskapene samt den tidsmessige overlappingen av flere serier må vurderes ved valg av datasett for analyse i dette kurset. Du vil analysere dine egne tidsserier i kurset. De første trinnene er å velge disse seriene og lagre dem i strukturer i en matfil. Enhetlig lagring i utgangspunktet er praktisk for denne klassen, slik at oppmerksomheten da kan fokusere på å forstå tidsserie metoder, snarere feilsøking av datakode for å klargjøre dataene for analyse. En struktur er en Matlab-variabel som ligner på en database ved at innholdet nås av tekstfeltbetegnere. En struktur kan lagre data av forskjellige former. Et felt kan for eksempel være en numerisk tidsseriematriks, en annen kan være tekst som beskriver datakilden osv. I den første oppgaven kjører du et Matlab-skript som leser tidsseriene og metadataene fra ascii tekstfiler du forbereder på forhånd og lagrer dataene i Matlab strukturer i en enkelt matfil. I etterfølgende oppgaver vil du bruke tidsseriemetoder til dataene ved å kjøre Matlab-skript og funksjoner som laster matfilen og opererer på disse strukturene. Velg prøvedata som skal brukes til oppgaver i løpet av kurset. Les: (1) Notes1.pdf, (2) Komme i gang, tilgjengelig fra MATLAB-hjelpemenyen Svar: Kjør script geosa1.m og svar på spørsmålene som er oppført i filen i a1.pdf Slik skiller du kategoriene av tidsserier Slik starter du og avslutter MATLAB Slik skriver du inn MATLAB-kommandoer ved kommandoprompt Slik lager du figurer i figurvindu Slik eksporterer du tall til tekstbehandleren Forskjell mellom MATLAB-skript og funksjoner Slik kjører du skript og funksjoner form av en MATLAB struktur variabel Slik bruker du skriptet geosa1.m for å få et sett med tidsserier og metadata i MATLAB strukturer Sannsynlighetsfordelingen av en tidsserie beskriver sannsynligheten for at en observasjon faller inn i et spesifisert verdierområde. En empirisk sannsynlighetsfordeling for en tidsserie kan nås ved å sortere og rangere verdiene av serien. Kvantiler og prosentiler er nyttig statistikk som kan tas direkte fra den empiriske sannsynlighetsfordelingen. Mange parametriske statistiske tester antar at tidsserien er et utvalg fra en befolkning med en bestemt befolkningssannsynlighetsfordeling. Ofte antas befolkningen å være normal. Dette kapittelet inneholder noen grunnleggende definisjoner, statistikk og plott knyttet til sannsynlighetsfordelingen. I tillegg er det innført en test (Lilliefors test) for å teste om en prøve kommer fra en normal fordeling med uspesifisert gjennomsnitt og varians. Svar: Kjør script geosa2.m og svar på spørsmålene som er oppført i filen i a2.pdf Definisjoner av termer: tidsserier, stasjonar, sannsynlighetstetthet, distribusjonsfunksjon, kvantilstand, spredning, plassering, gjennomsnitt, standardavvik og skjevhet. Hvordan tolke mest verdifulle grafikk i tidsserieanalyse - tidsseriens plot Hvordan tolke boksplot, histogram og normal sannsynlighetsdiagram Parametre og form av normalfordeling Lilliefors test for normalitet: grafisk beskrivelse, antagelser, null og alternative hypoteser Hensyn til tolkning av signifikansnivåer av statistiske tester når tidsserier ikke er tilfeldige i tid Hvordan søke geosa2.m for å sjekke distribusjonsegenskapene til en tidsserie og teste serien for normalitet Autokorrelasjon refererer til korrelasjonen av en tidsserie med egne fortid og fremtidige verdier. Autokorrelasjon kalles også noen ganger forsinket korrelasjon eller seriell korrelasjon. som refererer til sammenhengen mellom medlemmer av en rekke tall som er arrangert i tide. Positiv autokorrelasjon kan betraktes som en bestemt form for utholdenhet. en tendens til at et system forblir i samme tilstand fra en observasjon til den neste. For eksempel er sannsynligheten for at morgenen blir regnfull, større hvis det i dag er regnfull enn om det i dag er tørt. Geofysiske tidsserier er ofte autokorrelert på grunn av treghet eller overføringsprosesser i det fysiske systemet. For eksempel kan de langsomt utviklende og bevegelige lavtrykkssystemene i atmosfæren gi utholdenhet til daglig nedbør. Eller den langsomme dreneringen av grunnvannsreserver kan føre til korrelasjon til suksessive årlige strømmer av en elv. Eller lagrede fotosyntater kan gi sammenheng med suksessive årlige verdier av tre-ring-indekser. Autokorrelasjon kompliserer anvendelsen av statistiske tester ved å redusere antall uavhengige observasjoner. Autokorrelasjon kan også komplisere identifiseringen av signifikant kovarians eller korrelasjon mellom tidsserier (for eksempel utfelling med en treringsserie). Autokorrelasjon kan utnyttes for spådommer: En autokorrelert tidsserie er forutsigbar, probabilistisk fordi fremtidige verdier avhenger av nåværende og tidligere verdier. Tre verktøy for å vurdere autokorrelasjonen av en tidsserie er (1) tidsserien, (2) den forsinkede scatterplot, og (3) autokorrelasjonsfunksjonen. Svar: Kjør script geosa3.m og svar på spørsmål som er oppført i filen i a3.pdf Definisjoner: autokorrelasjon, utholdenhet, seriell korrelasjon, autokorrelasjonsfunksjon (acf), autokovariansfunksjon (acvf), effektiv sample size Hvordan gjenkjenne autokorrelasjon i tidsseriene plot Hvordan bruke lagged scatterplots for å vurdere autocorrelation Hvordan tolke den plottet acf Hvordan justere prøvestørrelsen for autokorrelasjon Matematisk definisjon av autokorrelasjonsfunksjonen Vilkår som påvirker bredden på det beregnede konfidensbåndet av acf Differansen mellom en ensidig og to - sidig test av signifikant lag-1 autokorrelasjon Hvordan søke geos3.m for å studere autokorrelasjon av en tidsserie Spekteret av en tidsserier er fordelingen av varians av serien som en funksjon av frekvens. Målet med spektralanalyse er å estimere og studere spekteret. Spekteret inneholder ingen ny informasjon utover det i autokovariansfunksjonen (acvf), og faktisk kan spekteret beregnes matematisk ved transformasjon av acvf. Men spektret og ACVF presenterer informasjonen om variansen av tidsseriene fra komplementære synspunkter. Akkumulatoren oppsummerer informasjon i tidsdomene og spekteret i frekvensdomenet. Svar: Kjør script geosa4.m og svar på spørsmål som er oppført i filen i a4.pdf Definisjoner: frekvens, periode, bølgelengde, spektrum, Nyquist-frekvens, Fourier-frekvenser, båndbredde Grunner til analyse av et spektrum Hvordan tolke et plottet spektrum i form av distribusjon av varians Forskjellen mellom et spektrum og et normalisert spektrum Definisjon av forsinkelsesvinduet som brukt til å estimere spekteret ved hjelp av Blackman-Tukey-metoden Hvordan valget av lagvindu påvirker båndbredden og variansen av estimert spektrum Hvordan definerer et hvitt støyspektrum og autoregressivt spektrum Hvordan skisse noen typiske spektrale former: hvit støy, autoregressiv, kvasjonsperiodisk, lavfrekvent, høyfrekvente Hvordan bruke geosa4.m til å analysere spekteret av en tidsserie med Blackman-Tukey-metoden Autoregressive-Moving Gjennomsnittlig (ARMA) modellering Autoregressive-moving-average (ARMA) - modeller er matematiske modeller av persistensen, eller autokorrelasjon, i en tidsserie. ARMA-modeller er mye brukt i hydrologi, dendrochronology, økonometri og andre felt. Det er flere mulige grunner for å tilpasse ARMA-modeller til data. Modellering kan bidra til å forstå det fysiske systemet ved å avsløre noe om den fysiske prosessen som bygger utholdenhet i serien. For eksempel kan en enkel fysisk vannbalansemodell bestående av betingelser for nedbørsproduksjon, fordampning, infiltrering og grunnvannslager vises for å gi en strømstrømserie som følger en bestemt form for ARMA-modell. ARMA-modeller kan også brukes til å forutse atferd av en tidsserie fra tidligere verdier alene. En slik prediksjon kan brukes som en basislinje for å vurdere mulig betydning av andre variabler til systemet. ARMA-modeller er mye brukt til å forutsi økonomiske og industrielle tidsserier. ARMA-modeller kan også brukes til å fjerne utholdenhet. I dendrokronologi, for eksempel, brukes ARMA modellering rutinemessig for å generere gjenværende kronologier tidsserier av ringbreddeindeks uten avhengighet av tidligere verdier. Denne operasjonen, som kalles prewhitening, er ment å fjerne biologisk relatert persistens fra serien, slik at gjenværende kan være mer egnet for å studere påvirkning av klima og andre eksterne miljøfaktorer på trevekst. Svar: Kjør script geosa5.m og svar på spørsmål som er oppført i filen i a5.pdf Funksjonsformen til de enkleste AR - og ARMA-modellene Hvorfor slike modeller refereres til som autoregressive eller bevegelige gjennomsnitt De tre trinnene i ARMA-modellering Diagnostiske mønstre av autokorrelasjon og delvise autokorrelasjonsfunksjoner for en AR (1) tidsserie Definisjon av den endelige prediksjonsfeilen (FPE) og hvordan FPE brukes til å velge en best ARMA-modell Definisjon av Portmanteau-statistikken, og hvordan den og gjenstanden for residualer kan være brukes til å vurdere om en ARMA-modell effektivt modellerer utholdenheten i en serie. Hvordan prinsippet om parsimoni brukes i ARMA-modellering. Definisjon av forvitring. Hvordan prewhitening påvirker (1) utseendet av en tidsserie, og (2) spekteret av en tidsserie Slik bruker du geosa5.m til ARMA-modellen en tidsserie Spektralanalyse - glatt periodogrammetode Det finnes mange tilgjengelige metoder for å estimere spektra av en tidsserie. I leksjon 4 så vi på Blackman-Tukey-metoden, som er basert på Fourier-transformasjon av den glatte, avkortede autokovariansfunksjonen. Den glattede periodogrammetoden omgår transformasjonen av acf ved direkte Fourier-transformasjon av tidsserier og beregning av råperiodogrammet, en funksjon som først ble introdusert på 1800-tallet for studier av tidsserier. Råperiodogrammet glattes ved å bruke kombinasjoner eller spenner av ett eller flere filtre for å produsere estimert spektrum. Glattheten, oppløsningen og variansen av spektralestimatene styres ved valg av filtre. En mer aksentuert utjevning av det rå periodogrammet gir et underliggende jevnt varierende spektrum, eller null kontinuum, mot hvilken spektrale topper kan testes for betydning. Denne tilnærmingen er et alternativ til spesifikasjonen av en funksjonell form for null-kontinuumet (for eksempel AR-spektrum). Svar: Kjør skript geosa6.m og svar på spørsmål som er oppført i filen i a6.pdf Definisjoner: Rå periodogram, Daniell filter, Spenning av filter, null kontinuitetsjevnhet, Stabilitet og oppløsning av spektrum tapering, polstring, Lekkasje De fire hovedtrinnene i estimering Spekteret ved det glatte periodogrammet Hvordan virkningen av filtervalg spenner over glatthet, stabilitet og oppløsning av spekteret Hvordan null-kontinuum brukes til testing for betydning av spektraltoppene Hvordan bruke geosa6.m for å estimere spekteret av tid serie ved den glatte periodogrammetoden og test for periodicitet ved en spesifisert frekvens. Trend i en tidsserie er en langsom, gradvis endring i noen egenskap av serien over hele intervallet som undersøkes. Trend er noen ganger løst definert som en langsiktig endring i gjennomsnittet (figur 7.1), men kan også referere til endring i andre statistiske egenskaper. For eksempel har tre-ring-serien av målt ringbredde ofte en tendens i varians så vel som gjennomsnittlig (figur 7.2). I tradisjonell tidsserieanalyse ble en tidsserie nedbrutt i trend, sesongmessige eller periodiske komponenter, og uregelmessige svingninger, og de ulike delene ble studert separat. Moderne analyseteknikker behandler ofte serien uten slik rutinemessig dekomponering, men det er ofte nødvendig med separat vurdering av trenden. Detrending er den statistiske eller matematiske operasjonen for å fjerne trenden fra serien. Avhending brukes ofte for å fjerne en funksjon som antas å forvride eller skjule forholdet av interesse. I klimatologi kan for eksempel en temperaturutvikling på grunn av urban oppvarming skjule et forhold mellom skyighet og lufttemperatur. Avhending brukes også noen ganger som et forbehandlingstrinn for å forberede tidsserier for analyse ved hjelp av metoder som antar stasjonar. Many alternative methods are available for detrending. Simple linear trend in mean can be removed by subtracting a least-squares-fit straight line. More complicated trends might require different procedures. For example, the cubic smoothing spline is commonly used in dendrochronology to fit and remove ring-width trend that might not be linear, or not even monotonically increasing or decreasing over time. In studying and removing trend, it is important to understand the effect of detrending on the spectral properties of the time series. This effect can be summarized by the frequency response of the detrending function. Answer: Run script geosa7.m and answer questions listed in the file in a7.pdf Definitions: frequency response, spline, cubic smoothing spline Pros and cons of ratio vs difference detrending Interpretation of terms in the equation for the spline parameter How to choose a spline interactively from desired frequency response How the spectrum is affected by detrending How to measure the importance of the trend component in a time series How to apply geosa7.m to interactively choose a spline detrending function and detrend a time series The estimated spectrum of a time series gives the distribution of variance as a function of frequency. Depending on the purpose of analysis, some frequencies may be of greater interest than others, and it may be helpful to reduce the amplitude of variations at other frequencies by statistically filtering them out before viewing and analyzing the series. For example, the high-frequency (year-to-year) variations in a gauged discharge record of a watershed may be relatively unimportant to water supply in a basin with large reservoirs that can store several years of mean annual runoff. Where low-frequency variations are of main interest, it is desirable to smooth the discharge record to eliminate or reduce the short-period fluctuations before using the discharge record to study the importance of climatic variations to water supply. Smoothing is a form of filtering which produces a time series in which the importance of the spectral components at high frequencies is reduced. Electrical engineers call this type of filter a low-pass filter, because the low-frequency variations are allowed to pass through the filter. In a low-pass filter, the low frequency (long-period) waves are barely affected by the smoothing. It is also possible to filter a series such that the low-frequency variations are reduced and the high-frequency variations unaffected. This type of filter is called a high-pass filter. Detrending is a form of high-pass filtering: the fitted trend line tracks the lowest frequencies, and the residuals from the trend line have had those low frequencies removed. A third type of filtering, called band-pass filtering, reduces or filters out both high and low frequencies, and leaves some intermediate frequency band relatively unaffected. In this lesson, we cover several methods of smoothing, or low-pass filtering. We have already discussed how the cubic smoothing spline might be useful for this purpose. Four other types of filters are discussed here: 1) simple moving average, 2) binomial, 3) Gaussian, and 4) windowing (Hamming method). Considerations in choosing a type of low-pass filter are the desired frequency response and the span, or width, of the filter. Answer: Run script geosa8.m and answer questions listed in the file in a8.pdf Definitions: filter, filter weights, filter span, low-pass filter, high-pass filter, band-pass filter frequency response of a filter How the Gaussian filter is related to the Gaussian distribution How to build a simple binomial filter manually (without the computer) How to describe the frequency response function in terms of a system with sinusoidal input and output How to apply geosa8.m to interactively design a Gaussian, binomial or Hamming-window lowpass filter for a time series The Pearson product-moment correlation coefficient is probably the single most widely used statistic for summarizing the relationship between two variables. Statistical significance and caveats of interpretation of the correlation coefficient as applied to time series are topics of this lesson. Under certain assumptions, the statistical significance of a correlation coefficient depends on just the sample size, defined as the number of independent observations. If time series are autocorrelated, an effective sample size, lower than the actual sample size, should be used when evaluating significance. Transient or spurious relationships can yield significant correlation for some periods and not for others. The time variation of strength of linear correlation can be examined with plots of correlation computed for a sliding window. But if many correlation coefficients are evaluated simultaneously, confidence intervals should be adjusted ( Bonferroni adjustment ) to compensate for the increased likelihood of observing some high correlations where no relationship exists. Interpretation of sliding correlations can be also be complicated by time variations of mean and variance of the series, as the sliding correlation reflects covariation in terms of standardized departures from means in the time window of interest, which may differ from the long-term means. Finally, it should be emphasized that the Pearson correlation coefficient measures strength of linear relationship. Scatterplots are useful for checking whether the relationship is linear. Answer: Run script geosa9.m and answer questions listed in the file in a9.pdf Mathematical definition of the correlation coefficient Assumptions and hypothesis for significance testing of correlation coefficient How to compute significance level of correlation coefficient and to adjust the significance level for autocorrelation in the individual time series Caveats to interpretation of correlation coefficient Bonferroni adjustment to signficance level of correlation under multiple comparisons Inflation of variance of estimated correlation coefficient when time series autocorrelated Possible effects of data transformation on correlation How to interpret plots of sliding correlations How to apply geosa9.m to analyze correlations and sliding correlations between pairs of time series Lagged relationships are characteristic of many natural physical systems. Lagged correlation refers to the correlation between two time series shifted in time relative to one another. Lagged correlation is important in studying the relationship between time series for two reasons. First, one series may have a delayed response to the other series, or perhaps a delayed response to a common stimulus that affects both series. Second, the response of one series to the other series or an outside stimulus may be smeared in time, such that a stimulus restricted to one observation elicits a response at multiple observations. For example, because of storage in reservoirs, glaciers, etc. the volume discharge of a river in one year may depend on precipitation in the several preceding years. Or because of changes in crown density and photosynthate storage, the width of a tree-ring in one year may depend on climate of several preceding years. The simple correlation coefficient between the two series properly aligned in time is inadequate to characterize the relationship in such situations. Useful functions we will examine as alternative to the simple correlation coefficient are the cross-correlation function and the impulse response function. The cross-correlation function is the correlation between the series shifted against one another as a function of number of observations of the offset. If the individual series are autocorrelated, the estimated cross-correlation function may be distorted and misleading as a measure of the lagged relationship. We will look at two approaches to clarifying the pattern of cross-correlations. One is to individually remove the persistence from, or prewhiten, the series before cross-correlation estimation. In this approach, the two series are essentially regarded on equal footing . An alternative is the systems approach: view the series as a dynamic linear system -- one series the input and the other the output -- and estimate the impulse response function. The impulse response function is the response of the output at current and future times to a hypothetical pulse of input restricted to the current time. Answer: Run script geosa10.m and answer questions listed in the file in a10.pdf Definitions: cross-covariance function, cross-correlation function, impulse response function, lagged correlation, causal, linear How autocorrelation can distort the pattern of cross-correlations and how prewhitening is used to clarify the pattern The distinction between the equal footing and systems approaches to lagged bivariate relationships Which types of situations the impulse response function (irf) is an appropriate tool How to represent the causal system treated by the irf in a flow diagram How to apply geos10.m to analyze the lagged cross-correlation structure of a a pair of time series Multiple linear regression Multiple linear regression (MLR) is a method used to model the linear relationship between a dependent variable and one or more independent variables. The dependent variable is sometimes also called the predictand, and the independent variables the predictors. MLR is based on least squares: the model is fit such that the sum-of-squares of differences of observed and predicted values is minimized. MLR is probably the most widely used method in dendroclimatology for developing models to reconstruct climate variables from tree-ring series. Typically, a climatic variable is defined as the predictand and tree-ring variables from one or more sites are defined as predictors. The model is fit to a period -- the calibration period -- for which climatic and tree-ring data overlap. In the process of fitting, or estimating, the model, statistics are computed that summarize the accuracy of the regression model for the calibration period. The performance of the model on data not used to fit the model is usually checked in some way by a process called validation. Finally, tree-ring data from before the calibration period are substituted into the prediction equation to get a reconstruction of the predictand. The reconstruction is a prediction in the sense that the regression model is applied to generate estimates of the predictand variable outside the period used to fit the data. The uncertainty in the reconstruction is summarized by confidence intervals, which can be computed by various alternative ways. Answer: Run script geosa11.m (Part 1) and answer questions listed in the file in a11.pdf The equation for the MLR model Assumptions for the MLR model Definitions of MLR statistics: coefficient of determination, sums-of-squares terms, overall-F for the regression equation, standard error of the estimate, adjusted R-squared, pool of potential predictors The steps in an analysis of residuals How to apply geosa11.m (part 1) to fit a MLR regression model to predict one variable from a set of several predictor variables Validating the regression model Regression R-squared, even if adjusted for loss of degrees of freedom due to the number of predictors in the model, can give a misleading, overly optimistic view of accuracy of prediction when the model is applied outside the calibration period. Application outside the calibration period is the rule rather than the exception in dendroclimatology. The calibration-period statistics are typically biased because the model is tuned for maximum agreement in the calibration period. Sometimes too large a pool of potential predictors is used in automated procedures to select final predictors. Another possible problem is that the calibration period itself may be anomalous in terms of the relationships between the variables: modeled relationships may hold up for some periods of time but not for others. It is advisable therefore to validate the regression model by testing the model on data not used to fit the model. Several approaches to validation are available. Among these are cross-validation and split-sample validation. In cross-validation, a series of regression models is fit, each time deleting a different observation from the calibration set and using the model to predict the predictand for the deleted observation. The merged series of predictions for deleted observations is then checked for accuracy against the observed data. In split-sample calibration, the model is fit to some portion of the data (say, the second half), and accuracy is measured on the predictions for the other half of the data. The calibration and validation periods are then exchanged and the process repeated. In any regression problem it is also important to keep in mind that modeled relationships may not be valid for periods when the predictors are outside their ranges for the calibration period: the multivariate distribution of the predictors for some observations outside the calibration period may have no analog in the calibration period. The distinction of predictions as extrapolations versus interpolations is useful in flagging such occurrences. Answer: Run script geosa11.m (Part 2) and answer questions listed in the file in a12.pdf Definitions: validation, cross-validation, split-sample validation, mean square error (MSE), root-mean-square error (RMSE) standard error of prediction, PRESS statistic, hat matrix, extrapolation vs interpolation Advantages of cross-validation over alternative validation methods How to apply geosa11.m (part 2) for cross-validated MLR modeling of the relationship between a predictand and predictors, including generation of a reconstruction and confidence bands Downloading Files -- tsfiles. zip The Matlab class scripts and user-written functions are zipped in a file called tsfiles. zip. To get the files, first create an empty directory on your computer. This is where you will store all functions, scripts and data used in the course. Go to D2L, or click on tsfiles. zip to download the zip file to that directory and unzip it there. When you run matlab, be sure that directory is your current matlab working directory. Powerpoint lecture outlines miscellaneous files. Downloadable file other. zip has miscellaneous files used in lectures. Included are Matlab demo scripts, sample data files, user-written functions used by demo scripts, and powerpoint presentations, as pdfs (lect1a. pdf, lect1b. pdf, etc.) used in on-campus lectures. I update other. zip over the semester, and add the presentation for the current lecture within a couple of days after that lecture is given. To run the Matlab scripts for the assignments, you must have your data, the class scripts, and the user-written Matlab functions called by the scripts in a single directory on your computer. The name of this directory is unimportant. Under Windows, it might be something like C:geos585a. The functions and scripts provided for the course should not require any tailoring, but some changes can be made for convenience. For example, scripts and functions will typically prompt you for the name of your input data file and present Spring17 as the default. That is because Ive stored the sample data in Spring17.mat. If you want to avoid having to type over Spring17 with the name of your own data file each time you run the script, edit the matlab script with the Matlab editordebugger to change one line. In the editor, search for the string Spring17 and replace it with the name of your. mat storage file (e. g. Smith2017), then be sure to re-save the edited script.

No comments:

Post a Comment