Problem kolekcjonera kuponów

Z testwiki
Przejdź do nawigacji Przejdź do wyszukiwania

Problem kolekcjonera kuponów opisuje klasę konkursów, w którym gracz otrzymuje wygraną po zebraniu wszystkich kuponów z określonej puli. Problem polega na przewidzeniu jak długo należy zbierać kupony, aby otrzymać wygraną. Problem ten jest interesujący z matematycznego punktu widzenia, jak i ma wiele zastosowań w informatyce.

Analiza problemu

Oto doprecyzowanie podstawowego wariantu problemu kolekcjonera kuponów:

  1. mamy n urn,
  2. do urn tych wrzucamy kolejno kule,
  3. wybór każdej urny jest równo prawdopodobny oraz kolejne wybory są wykonywane niezależnie.

Interesuje nas liczba rzutów Tn, po której w każdej urnie znajdzie się co najmniej jedna kula. Liczba rzutów Tn jest zmienną losową.

Problem ten można stosunkowo łatwo zanalizować, rozbijając proces wypełniania urn na etapy. Załóżmy, że w pewnej chwili wypełnionych jest k urn i niech Tn,k oznacza liczbę rzutów potrzebnych do zapełnienia k+1 urn (czyli do dorzucenia jednej kuli do pustych urn). Wtedy

  1. Tn,k jest zmienną losową o rozkładzie geometrycznym z parametrem (nk)/n,
  2. Tn=Tn,0+Tn,1++Tn,n1,
  3. zmienne Tn,0,Tn,1,,Tn,n1niezależne.

Wartość oczekiwana

Korzystając z tego, że wartość oczekiwana zmiennej o rozkładzie geometrycznym z parametrem p wynosi 1/p oraz z tego, że wartość oczekiwana sumy zmiennych losowych jest równa sumie wartości oczekiwanych tych zmiennych otrzymujemy

E[Tn]=k=0n1nnk=nk=0n11nk=nk=1n1k.

Suma 1/1+1/2++1/n nazywana jest n-tą liczbą harmoniczną i oznaczana symbolem Hn.

Ponadto

Hn=ln(n)+γ+12n112n2+O(1n4),

gdzie γ=0,57721... jest stałą Eulera-Mascheroniego.

W konsekwencji

Tn=nln(n)+γn+12112n+O(1n3).

Wariancja

Wariancję zmiennej losowej Tn można wyznaczyć w podobny sposób jak wyznacza się wartość oczekiwaną. Zmienna losowa o rozkładzie geometrycznym z parametrem p ma wariancję równą (1p)/p2 oraz z wariancja sumy niezależnych zmiennych losowych jest równa sumie wariancji tych zmiennych, skąd wynika że

var[Tn]=k=0n1nk(nk)2n2k=0n11(nk)2=n2k=1n1k2<n2π26<2n2.

Ponadto

var[Tn]E[Tn]=O(1ln(n)),

zatem asymptotycznie zmienna Tn jest mocno skoncentrowana.

Bibliografia