Bernoulli

In de wiskunde, de Bernoulli distributie of Bernoulli wet, genoemd naar de Zwitserse wiskundige Jacques Bernoulli is een discrete kansverdeling, waarbij de waarde 1 met kans p en 0 met kans q = 1 neemt - p. Met andere woorden,

of, equivalent,

Verwachting van een Bernoulli willekeurige variabele p en de variantie p.

Kurtosis nul nadert voor hoge en lage waarden van p voor p = 1/2 maar het Bernoulli-verdeling een lagere kurtosis dan andere verdeling, dat wil zeggen 1.

Variabele Bernoulli

Een willekeurige variabele wet van Bernoulli heet Bernoulli variabel.

Bernoulli's wet is de wet van de willekeurige variabele dat het resultaat van een test die slechts twee uitkomsten laat codeert: 1 voor het "succes", 0 voor het "falen", of wat dan ook de naam gegeven aan twee nummers van dergelijke willekeurige ervaring.

Meer in het algemeen geen meetbare mapping waarde {0,1} een variabele Bernoulli. Met andere woorden, elke meetbare indicator functie volgt de wet van Bernoulli.

Omgekeerd, om welke Bernoulli X variabele ingesteld op één kan een meetbare set B als X en de indicator functie van B vinden zijn vrijwel zeker gelijk: elke Bernoulli variabele is vrijwel zeker gelijk aan een indicator functie.

Gerelateerde distributies

Binomium

Als zijn Bernoulli stochasten met parameter p, onafhankelijk en identiek verdeeld, dan is hun som N volgt de binomiale verdeling:

Poisson

Of een array van onafhankelijke Bernoulli willekeurige variabelen respectievelijke parameters wordt genoteerd

Le Cam ongelijkheid Voor elke set Een van de natuurlijke getallen,

Met name wanneer de volgende twee voorwaarden is voldaan:

vervolgens Sn convergeert in de distributie naar de Poisson parameter λ.

De bovengenoemde twee voorwaarden leiden dat

Gevolg: Fish Paradigm Sn som van een groot aantal onafhankelijke Bernoulli variabelen kleine parameter ongeveer volgt de parameter Poisson

Poisson komt vaak voor wanneer rekening zeldzame gebeurtenissen zoals kind zelfmoord, boot aangekomen in de haven of ongevallen als gevolg van paard kicks in de legers. Het tellen van de zeldzame gebeurtenissen wordt vaak gedaan door middel van een som van Bernoulli variabelen en evenementen schaarste komt tot uiting in het feit dat de parameters van deze variabelen Bernoulli zijn klein.

Opmerkingen:
  • Een bekend bij de Poisson paradigma is de convergentie van de binomiale verdeling met parameters n en λ / n om de parameter λ Poisson verdeling, die overeenkomt in de ongelijkheid Le Cam, keuzes een = n, pk, n = λ / n, λn = λ.
  • Dit paradigma is nog steeds relevant in bepaalde gevallen, als men ontspant de aanname van onafhankelijkheid.
    • Een treffend voorbeeld is het aantal vaste punten van een permutatie willekeurig getrokken.
    • Een ander voorbeeld is het aantal geïsoleerde punten van de willekeurige grafiek, is de convergentie van de Poisson-verdeling ingeschakeld Erdos en Renyi laten zien in 1960, de dubbel-exponentiële stelling.
  • Vooral als een = n, pk, n = λ / n, λn = λ de ongelijkheid van de precieze Cam convergentie snelheid van de binomiale verdeling met parameters n en λ / n om de Poisson parameter λ: De ongelijke Cam biedt dan een stijging van de fout door λ / n.

Toepassingen te tellen

Schrijf een willekeurige variabele N, het tellen van een aantal gebeurtenissen in een bepaalde situatie als de som van een familie van Bernoulli variabelen vaak gebruikt om gemakkelijk berekenen verwachting N, als de som van de parameters van deze variabelen Bernoulli:

We gebruiken het feit dat voor een variabele van Bernoulli, de parameter p verwachting zowel de waarschijnlijkheid van de waarde 1:

Deze werkwijze vereenvoudigt de berekening van de variantie van N, in sommige gevallen:

en toen ik werd gewijd, door het pand symmetrie van covariantie,

Hieronder enkele voorbeelden, de meest representatieve van deze wijdverspreide telmethode.

Poll

Er zijn dan bijvoorbeeld het aantal N "ja" respons in een populatie monster in een onderzoek, teneinde daaruit het aandeel van "ja" afleiden. Het uitvoeren van een reeks van n willekeurige trekt in een populatie. We hebben dezelfde vraag aan elk van de n individuen willekeurig getrokken. Het doel is om in te schatten het aandeel van de personen w van de totale bevolking, die zou hebben beantwoord "ja" met het aantal N individuen die daadwerkelijk antwoord "ja" onder het n geïnterviewde personen. Merk op dat N kan worden geschreven

waarin X1, X2, ..., Xn worden gedefinieerd

dwz Xk is 1 of 0 volgens de respons van de k-de individu "ja" of "nee". Omdat het een indicator functie, Xk is een variabele van Bernoulli. De instelling is "waarschijnlijk antwoord 'ja', dat wil zeggen het aandeel van de" ja "in de totale bevolking, dat wil zeggen, p. Het was derhalve

Vandaar het idee, door Bernoulli voorgesteld in zijn boek Ars conjectandi oprichter, in te schatten het aandeel pa priori onbekend met de verhouding N / n "ja" in de steekproef, die zelf bekend . Om de nauwkeurigheid van deze schatting te bepalen, Bernoulli in hetzelfde werk stelde de eerste concentratie ongelijkheden. Een eenvoudigere benadering dan Bernoulli is om de variantie van N berekenen het idee van het toepassen van ongelijke BIENAYMÉ-Chebyshev. Op dit punt moet worden gespecificeerd

  • toen prints werden gehouden met fitness, die de onafhankelijkheid van Xk impliceert, en geeft
  • toen prints werden gehouden zonder vervanging, waarbij de xk niet onafhankelijk. Dan

In beide gevallen boven beschouwd, is de wet van de N expliciet bekend. De berekening van de verwachting van N De ontleding van N in een som van Bernoulli variabelen hierboven weergegeven, is eenvoudiger dan het berekenen van de hoop met de N overdracht stelling:

Hetzelfde geldt voor de berekening van de variantie.

Empirische verdelingsfunctie

Het tellen van het aantal N van de elementen tegen lagere reëel getal x in een monster van willekeurige getallen, zodat daaruit het aandeel van dergelijke nummers, die de empirische verdelingsfunctie wordt te leiden. In statistieken, de empirische verdelingsfunctie geassocieerd met een n-sample is de distributiefunctie van de waarschijnlijkheidsverdeling die waarschijnlijkheid toewijst 1 / n voor elk van de n nummers van het monster.

Is een voorbeeld van de variabelen i.i.d. waarden in wiens gemeenschappelijke distributie functie F: empirische distributie functie in verband met het monster is een stap functie gedefinieerd door

Voor vaste x, de variabele een Bernoulli parameter p = F. Daarom is de variabele verdeeld volgens een binomiale verdeling met gemiddelde en variantie nF nF (1 - F).

Voor de verschillende betekenissen van "convergentie", de empirische verdelingsfunctie convergeert naar de distributie functie F wanneer de steekproefgrootte toeneemt. Bijvoorbeeld onder de variantie berekening van Fn, hebben we, voor elke echte x,

het aantonen van de convergentie van de Fn-F, in L2.

Herhaling en vergankelijkheid van een Markov keten

De verblijftijd van een Markov keten in staat is een willekeurige variabele met waarden gedefinieerd

De de aandoening voorbijgaande of terugkerende, na die 0 of 1, of naargelang de gemiddelde verblijftijd i, uitgaande van i eindig of oneindig. Zoals een bedrag van Bernoulli variabelen, bespreken de laatste terug naar de convergentie van de serie bespreken

waarbij de parameter van de Bernoulli variabele betrokken, namelijk

waarbij parameter is een diagonaal looptijd van de kde macht van de overgangsmatrix van de Markov keten beschouwd.

Toewijzing problemen: dozen en ballen

Er zijn hier het aantal N van lege dozen in een willekeurig experiment met dozen en ballen, met vele interpretaties. M ballen worden willekeurig gegooid n dozen, probabilistische ervaring een elementair evenement ω is een toepassing in: ω is het nummer van de doos waarin de bal is rijnummer k. Zo ω onafhankelijk kansvariabelen en uniform op A. N, applicatie distributie een ω m n voorzetten vakken combineert het nummer N lege dozen aan het einde van deze verdeling ω, kan worden beschouwd als een som Variabelen van Bernoulli: inderdaad,

waarin X1, X2, ..., Xn worden gedefinieerd

dwz Xk is 1 of 0 volgens de k-de box leeg is of niet. Omdat het een gebeurtenis indicator functie, Xk is een variabele van Bernoulli. De instelling is "waarschijnlijk leeg te zijn", dat wil zeggen de kans dat elk van de m ballen de doos Nee k heeft vermeden. Elk van m ballen met kans 1 / n van vallen in de doos No. k, m en vergoedingen van ballen onafhankelijk, krijg je

dan

Met deze afbraak som van Bernoulli variabelen, kan men een nauwkeurige concentratie ongelijkheid voor N te verkrijgen, door het toepassen van ongelijke Azuma. Deze concentratie ongelijkheid een benaderende tellen statistische methode rechtvaardigen basis van de statistische N, en kunnen bijvoorbeeld dienen om een ​​virusaanval detecteren.

Opmerking: De kans N wet expliciet uitgedrukt in Stirling nummers van de tweede soort, maar de verkregen uitdrukkingen zijn niet bevorderlijk voor numerieke berekeningen, vandaar de noodzaak van aanpassing via Azuma ongelijkheid.

Vaste punten van een permutatie willekeurig getrokken

We gooien n genummerde ballen op willekeurige in n genummerde vakjes, elke doos met hooguit één bal, probabilistische ervaring een elementair evenement is een permutatie van elementen: wordt, wederom, de doos nummer dat wordt opgeslagen de bal nummer k. Aangenomen wordt dat de verschillende mogelijke verdelingen even waarschijnlijk. Application N, die een verdeling van n voorzetten n vakjes associeert het aantal ballen met hetzelfde nummer als de doos waarin ze zijn aangebracht aan het einde van deze verdeling kan worden beschouwd als een som van Bernoulli variabelen in Inderdaad,

waarin X1, X2, ..., Xn worden gedefinieerd

dwz Xk is 1 of 0 volgens de k-de box bevat de k-de bal of niet. Omdat het een gebeurtenis indicator functie, Xk is een variabele van Bernoulli. De instelling is 1 / n. Verkregen als

Na een benadering vergelijkbaar met die gebruikt worden voor een enquête, vinden we dat

De opname-uitsluitingsprincipe maakt precies wet van N berekenen, en vinden dat deze wet convergeert als n oneindig nadert, de parameter Poisson 1. Dit voorbeeld is kenmerkend: het algemeen, parameter Poisson-verdeling is een goede benadering van de wet van de som van N Bernoulli vele variabelen en enkele kleine parameter gecorreleerd. Ook een voordeel van N schrijven als een som van Bernoulli variabelen een snelle berekening van de verwachting en variantie van N toestaan, dat de expliciete uitdrukking van de wet van N evenals niet gemakkelijk .

Aantal gevallen van een woord in een tekst

Overweeg een tekst ω1ω2ω3 ω = Qm bestaat uit m ... print, aangeduid ωi, 1 ≤ i ≤ m, die afgedrukte tekens worden willekeurig getrokken, met vervanging, een zak met precies één keer elk teken printing. Al de afdruk wordt opgemerkt, kardinaal n een reeks a = a1a2a3 ... ar voorbeeld van karakters een woord, als encyclopedie zijn. Het toepassen van N, die combineert tekst ω N het aantal keren dat het resultaat in het ω tekst kan worden beschouwd als een som van Bernoulli variabelen inderdaad

waarin X1, X2, ..., Xm-r + 1 worden gedefinieerd

dwz Xk is 1 of 0 volgens gevolge ω in de tekst, net na de ω-ste karakter van deze tekst, of niet. Omdat het een gebeurtenis indicator functie, Xk is een variabele van Bernoulli. De parameter is

Dus

Intuïtie is wanneer hij een ω tekst lengte ten minste m = n, zodat het evenement wordt waarschijnlijk. Inderdaad, de Markov ongelijkheid veroorzaakt dat

De paradox van de aap typiste, gepopulariseerd door Émile Borel, maakt gebruik van de eigenschappen van N r wanneer de lengte van de tekenreeks is zeer groot. In het voorbeeld gegeven door Emile Borel, de volgorde is een klassieke tekst van de Franse literatuur, bijvoorbeeld de volledige tekst van The Human Comedy. Dezelfde aanpak leidde dezelfde Émile Borel aan het normale aantal stelling aan te tonen.

Statistische analyse van de tekenreeksen willekeurig getrokken zelfstandig of willekeurig getrokken na meer geavanceerde modellen, heeft vele toepassingen, zoals het analyseren van de prestaties van de verschillende data compressiemethoden, of de studie van het genoom, en is de bron van formalisering, Andrei Markov, het concept van de Markov keten.

Aantal platen en het aantal cycli van een permutatie

Definitie In een opeenvolging u = 1≤k≤n geleden opnemen naar de rang k als uk strikt minder dan elke term ui als i & lt; k, dat wil zeggen, strikt kleiner is dan elk van bovengenoemde zin.

Voorbeeld. De platen af ​​na ω hieronder zijn vetgedrukt en onderstreept:

Laat B (resp. H) Event "is er verslag naar de rang k." Met andere woorden, B is de verzameling van permutaties waarvoor co Vervolgens ω, ω, ..., ω) heeft een record naar beneden rang k. (. Resp Nh) en het aantal Nb records naar het permutatie ω geschreven als een som van Bernoulli variabelen:

Onder de statistische eigenschappen van de Lehmer code, deze variabelen moeten respectievelijke parameters 1 / k Bernoulli:

Dus

waarbij Hn geeft het nde harmonische nummer. Zoals altijd op grond van de statistische eigenschappen van Lehmer code variabelen onafhankelijk betreft Bernoulli, maar heeft ook

waarbij Hn wordt de harmonische nummer gedefinieerd door

en convergeert naar Ç, d.w.z. n / 6.

De fundamentele correspondentie Foata kan aantonen dat de volgende twee toepassingen:

  • Nb het aantal records van een willekeurig gekozen permutatie ω,
  • het aantal C cycli van de ontleding van een permutatie Q willekeurig gekozen,

twee willekeurige variabelen met dezelfde kansverdeling. Deze kansverdeling wordt uitgedrukt in Stirling nummers van de eerste soort, genoteerd:

nauwkeurig formule, maar weinig expliciete exacte formule waarvoor moeilijk een doeltreffende berekening van de waarschijnlijkheid betrokken afleiden.

Aan de andere kant, het schrijven van Nb als een som van Bernoulli variabelen maakt toepassing op de centrale limietstelling Nb. Zo zien we dat het aantal cycli van een permutatie willekeurig getrokken, als het aantal records zijn geconcentreerd rond de hoop, die ongeveer ln n. Concreet:

voor a = 3,3.

Gemiddelde kosten van een snelle sorteren algoritme

De snelle sort-algoritme, ook wel Quicksort is een van de meest gebruikte algoritmen voor het opslaan, in oplopende volgorde, ongeordende lijst x = n eenheden, met een klein aantal 2-2 vergelijkingen . Inderdaad Quicksort wordt geacht zowel eenvoudig en doeltreffend. Quicksort wordt als volgt uitgevoerd:

  • x1 wordt vergeleken met elk element van de lijst, waardoor twee sublijsten, de lijst ω1 vormen - kleiner dan 1 x1 elementen. Dit geeft de ω1 x1 bezetten rang in de lijst nadat het netjes zal zijn.
  • X2 vergelijken met elk van de elementen van de sub-lijst, waardoor het vinden van de rang van x2 in deze sub-lijst, en tenslotte ω2 rang x2 innemen in de lijst nadat het netjes zal zijn. Verder splitst één van de twee sublijsten gevormd in de vorige stap in twee vormen drie sublijsten, waarvan sommige eventueel kan leeg prijslijst).
  • vergelijken x3, etc.

Een concrete uitvoering van deze abstracte algoritme wordt beschreven door Donald Knuth in The Art of Computer Programming.

Prestaties van Quicksort, in het ergste geval in de orde van n paarsgewijze vergelijkingen. Daarom zal een aaneenschakeling lijst die bestaat uit netjes lijsten duur te slaan, in aantal vergelijkingen. Vaak genomen om deze zwakte Quicksort remedie remedie is om kunstmatig ontregelende de lijst vóór de verwerking: er is ω =, ω, ω, ..., ω) de respectieve gelederen van elementen van wanordelijk lijst van tevoren, zodra deze elementen zijn gerangschikt in een groeiende lijst, zodat xi = yω. Daarom wordt aangenomen dat de lijst werd voorbehandeld zodat ω is een permutatie willekeurig getrokken met gelijke waarschijnlijkheid onder de n! mogelijke permutaties. We duiden N het aantal vergelijkingen van het algoritme. Dan

waarbij A de gebeurtenis 'yi en yj worden vergeleek in het algoritme. " Resulterende elementaire analyse van de gemiddelde kosten van Quicksort, eenvoudiger dan de conventionele werkwijze met behulp van een recurrente formule en het berekenen genererende functie.

We Voorstel

en

Demonstratie

Er zijn twee mogelijkheden:

  • indien de termijn, zeggen z, L = de lijst die voor het eerst in de lijst is strikt tussen Yi Yi en dan, vlak voordat u begint met z te vergelijken met de elementen van de sub-lijst, deze sub lijst bevat de lijst L, en geen van de elementen van L nog niet vergeleken met een ander element L. Na vergelijking z alle andere elementen van L, yi en yj twee sublijsten worden geplaatst anders en zal nooit worden vergeleken:
  • als z een van de twee elementen yi en yj van de lijst L, z vergelijking met alle andere onderdelen van de sub-lijst, die de volledige L bevat, dan is z, met name vergeleken met de andere lid van het paar:

De verdeling van j - i + 1 elementen in de lijst x L in de lijst willekeurig uniform, zodat de waarschijnlijkheid dat een bepaald element van de lijst L z verschijnt eerst in de lijst is x 1 /. Dus

en

waarbij Hn geeft het nde harmonische nummer. De vierde gelijkheid komt uit de vijfde gelijkheid variabelen veranderen van de verandering van variabelen en de zesde gelijkheid volgt een omkering van de volgorde van de optelling tussen de variabelen m en

Zo is de randomisatie lijst ingevoerd vermindert de kosten van het algoritme van één tot 2n ln. Nadere analyse als N demonstreren zeer geconcentreerd rond het gemiddelde 2n ln. Specifiek, de variantie asymptotisch N) n, waardoor volgt dat de standaarddeviatie van N in de orde van n, dat wil zeggen verwaarloosbaar verwachting N. Merk op dat de kosten van elke sorteer algoritme vergelijkingen 2-2 verminderd ln / ln die volgens Formule van Stirling, ongeveer 1.4N ln.