Microsoft R Server Tiger Team Microsoft R Server Tiger Team.

Microsoft R Server Tiger Team Microsoft R Server Tiger Team.

Dette er den offisielle teamloggen for Microsoft R Server Tiger Engineering-teamet som er en del av Data Group.

Forsta Grid Noder og Slots i DeployR.

DeployR har begrepet Grid noder for skalerbar utforelse av R skript. One DeployR-forekomsten kan ha flere gridnoder for a horisontalskala R-skripteksjonen. Som standard er det installert et gridnokkel nar du installerer DeployR, og du kan legge til nye gridnoder pa separate maskiner.

Hver grid node utforer en foresporsel om script-utforelse i det som kalles «slots«. Du kan tenke pa spor som omtrent en R-sesjon som du ville kjore for eksempel fra R-terminalen eller en annen IDE, bortsett fra at dette ikke er interaktivt.

Du kan konfigurere deg mange slike spor som du vil ha pa hver Grid node og DeployR vil begrense hvor mange R-sesjoner som kan lanseres samtidig til dette nummeret.

Et DeployR-prosjekt er abstraksjonen for en R-sesjon i DeployR. Nar DeployR oppretter en R-sesjon for utforelse av skript, ma den opprettholde litt informasjon om okten, for eksempel den innloggede brukeren som okten er (i tilfelle godkjente prosjekter), legger til for a telle slots som brukes pa en gridnode, hvilket knutepunkt er brukt til prosjektet (med vert og port) etc.

Ulike typer spor.

Autentisert Anonym Blandet Asynkron.

Kriterier for a konfigurere sporgrenser.

Hovedfaktorene som bestemmer hvor mange spor du skal konfigurere for en gitt gridnode, er folgende:

Den type last du vil kjore: autentisert, anonym, blandet osv. Kapasitet pa maskinene som kjorer gridnoden (antall kjerner, mengde RAM etc.) Hvor mange samtidige henrettelser du trenger Hva skjer i din R-script-utforelse, f.eks. for det meste a utfore pa noden vs a gjore distribuert beregning ved hjelp av en av de eksterne beregningskontekstene (f.eks. Hadoop, Spark, Teradata eller SQL Server). Hvis det meste av utforelsen skjer pa noden, bor du konfigurere sporgrensen til a v re n r antall tilgjengelige kjerner. Mens hvis det meste av utforelsen skjer i en ekstern beregningssammenheng, kan du oke sporgrensen til a v re mer enn antall kjerner siden R-sesjonen sannsynligvis vil vente pa de eksterne resultatene uansett.

Samtidig operasjonspolitikk.

En annen faktor som kan pavirke sporbruken er dine samtidige operasjonspolitikkinnstillinger under DeployR Server-retningslinjer. Disse tillater deg a legge inn en grense per bruker eller per oktgrense for bruk av spor i stedet for server wide limit som er standard.

Last balansering over grid noder.

Maten DeployR balanserer Grid noder er ganske enkelt. Det ser i utgangspunktet pa folgende faktorer:

Type onsket utforelse, dvs. autentisert eller anonym Totalt antall spor som er konfigurert for gridnodene Antall brukte slots.

Detaljert gange gjennom eksempel pa Grid Load Balancing.

La oss se pa et system med to gridnoder A og B, som har en spaltegrense pa henholdsvis 30 og 20 og antar for enkelhet at begge tillater blandet modus for utforelse, dvs. de kan utfore enten anonyme eller autentiserte skript.

Nar en foresporsel om et spor blir gjort under prosjektopprettelsen, kontrollerer DeployR hver gridnode i sin tur for tilgjengelige spor. Hvis det i dette eksemplet er brukt rutenett A, har 5 spor og rutenett B ikke brukt noen, vil det beregne hvor mange spor er tilgjengelig pa hver rutenett (sporene er tilgjengelige er henholdsvis 25 og 20 henholdsvis A og B) og vil velge den nod med storre antall ledige spor. Derfor vil Node A velges og totalt antall slots som brukes pa det vil v re 6. Siden det konfigurerte antallet tilgjengelige spor ikke er det samme pa begge noder, vil node A fortsette a bli valgt inntil 10 spor for antall tilgjengelige spor blir lik pa begge noder, dvs. 20 pa bade A og B. Den neste foresporselen kan ga til enten A eller B. La oss si at den gar til A slik at ingen brukte slots pa A er na 11. Etterfolgende foresporsel vil ga til B, slik at B na har B flere spor tilgjengelig, dvs. 20 mens A har 19.

Som du kan se om du vil balansere antall spor pa gridnoder, bor du konfigurere like antall spor for hver gridnode. Pa den annen side, hvis du har noder pa maskiner med ubalansert kapasitet, bor du konfigurere sporene dine tilsvarende.

Konklusjon.

Forsta hvordan gridnoder opererer med grenseverdier er viktig for a fa optimal ytelse og omfang av DeployR-installasjonen. Forhapentligvis gir dette litt innsikt i problemet. Det er viktig a gjore noe niva av ytelsestest for a fa en optimal konfigurasjon for scenariet ditt.