DBSCAN

Szablon:Algorytm infobox DBSCAN (od Szablon:W języku) – algorytm grupowania danych (klasteryzacji) oparty na gęstości^[1]^[2]. Jego pierwsza wersja została opublikowana w 1996 roku przez Martina Estera wraz ze współautorami^[3]^[4].

Klastrami utworzonymi za pomocą tego algorytmu są obszary o dużym zagęszczeniu obiektów w porównaniu z otoczeniem, co odpowiada intuicyjnemu rozumieniu grupowania^[5]. Algorytm umożliwia znalezienie klastra o dowolnym kształcie, w tym klastra otaczającego inny klaster^[2]. W odróżnieniu od algorytmu k-średnich, DBSCAN nie wymaga określenia liczby klastrów^[2]. Średnia złożoność czasowa algorytmu wynosi $O (n \cdot l o g (n))$ ^[3].

Opis

Ilustracja działania algorytmu dla $M i n P t s = 4.$ Czerwone punkty (w tym punkt A) są punktami centralnymi, żółte (B i C) są punktami granicznymi, niebieski (N) jest szumem

Algorytm przyjmuje dwa parametry wejściowe (należy je dobrać pod kątem konkretnego zagadnienia)^[1]^[5]:

$e p s$ – maksymalny promień sąsiedztwa,
$M i n P t s$ – minimalna liczba obiektów wchodzących w skład klastra.

Algorytm dokonuje grupowania zbioru $X$ w następujący sposób^[1]^[3]^[5]:

Wylosuj ze zbioru danych punkt $p \in X .$
Znajdź wszystkie punkty ze zbioru $X,$ których odległość od punktu $p$ jest mniejsza bądź równa $e p s .$
Jeśli liczba punktów znalezionych w punkcie 2 jest większa bądź równa MinPts, punkt p jest punktem centralnym i można na jego podstawie zbudować nowy klaster. W takim wypadku:
1. Utwórz nowy klaster zawierający punkt $p$ i wszystkie punkty znalezione w punkcie 2.
2. Dołączaj do klastra kolejne punkty, o ile są osiągalne gęstościowo z punktów już znajdujących się w klastrze, to znaczy:
  1. jeśli odległość punktu $q \in X$ od dowolnego punktu centralnego w klastrze jest mniejsza bądź równa $e p s,$ a w odległości mniejszej bądź równej $e p s$ od punktu $q$ znajduje się co najmniej $M i n P t s$ punktów, punkt $q$ jest także punktem centralnym – do klastra należy ten punkt oraz wszystkie inne znajdujące się w promieniu $e p s,$
  2. jeśli odległość punktu $q \in X$ od dowolnego punktu centralnego w klastrze jest mniejsza bądź równa $e p s,$ ale w odległości mniejszej bądź równej $e p s$ od punktu $q$ znajduje mniej niż $M i n P t s$ punktów, punkt $q$ jest punktem granicznym – do klastra należy ten punkt, ale już niekoniecznie inne punkty znajdujące się w promieniu $e p s .$
Wybierz kolejny punkt $p \in X$ (pomijając punkty znajdujące się już wewnątrz klastrów i punkty sprawdzone w punkcie 3) i wróć do punktu 3. Jeśli nie ma już nieprzejrzanych punktów, zakończ działanie algorytmu. Punkty niezaklasyfikowane do żadnego z klastrów traktowane są jako szum.

W zależności od kolejności przetwarzania punktów, przynależność punktów granicznych do klastrów może się zmienić. Pod tym względem algorytm jest więc niedeterministyczny^[2].

Implementacje

Implementacja algorytmu jest dostępna między innymi w bibliotece scikit-learn języka Python^[6] oraz w bibliotece fpc w języku R^[7].

Przypisy

Szablon:Przypisy

[starczewski-1] 1,0 ^1,1 ^1,2 Szablon:Cytuj

[sala-2] 2,0 ^2,1 ^2,2 ^2,3 Szablon:Cytuj

[ester-3] 3,0 ^3,1 ^3,2 Szablon:Cytuj

[rehman-4] Szablon:Cytuj

[brzezinska-5] 5,0 ^5,1 ^5,2 Szablon:Cytuj

[6] Szablon:Cytuj

[7] Szablon:Cytuj

[1]

[2]

[3]

[4]

[5]

[6]

[7]

DBSCAN

Opis

Implementacje

Przypisy

Menu nawigacyjne

Szukaj