Algorithmen & Datenstrukturen
Wintersemester 2000/2001

Martin Steffen

1 Einleitung

Literatur: Baut auf Kapitel 1 von [CLR90] auf.

Inhalt Algorithmus ·Analyse von Algorithmen ·Zeitkomplexität und Speicherkomplexität ·Algorithmenentwurf

Aufbau

Einleitung und Überblick
Sortieren
Suchen
dynamische Datenstrukturen
Bäume, Graphen ...
Problemlösungs stragegien:
- Divide and Conquer
- Rekursion und Iteration
- Greedy-Algorithmen
- Relaxation
- ...

Algorithmus

Namensgeber: Abu Ja'far Mohammed ibn Mûsâ al-Kwoarizmî: Kitab al jabr w'al-muqabala (Regeln zur Wiederherstellung und Reduktion)
heutige (informelle) Bedeutung ([Knu73a])
- (endliche Beschreibung)
- Definiertheit
- Terminierung
- besitzt Input¹ und Output
- Effektivität/ effectivness, jeder Einzelschritt ist effektiv ausführbar
- zur Lösung eines wohlspezifizieren Berechnungsproblems

Berechnungsproblem: Sortieren

Eingabe: endliche Sequenz von s = (a₁, a₂, ..., a_n)
Ausgabe: Permutation (a₁', ... a_n') von s mit a_i' £ a_i+i' für alle i Î {1,... n}
Algorithmus korrekt/ löst das Problem, falls für alle Eingaben
- Algorithmus hält nach endlicher Zeit
- liefert das korrekte Ergebnis

Beispiel: Insertion-Sort

Sortieren durch Einfügen
Imperative Lösung:
- Eingabe: Array A fester Länge n von Zahlen
- Ausgabe: monoton-steigend sortierter Array, Permutation von A.
- direktes Einfügen (``in situ'' sortieren)
inkrementelle Lösung
Bild: Verhalten von Insertion sort

Insertion_sort(A)

  for j = 2 to length[A]
    do key := A[j];
         i :=  j-1;
       while   i > 0 and A[i] > key
          do
               A[i+1] := A[i]
                    i := i-1;

       A[i+1] := key;

Analyse von Algorithmen

Analyse: mathematische Abschätzung des (vorraussichtlichen) Resourcenverbrauches abhängig von der Größe der Eingabe
Fragestellungen:
- (Korrektheit, Terminierung)
- Zeitkomplexität: Anzahl elementarer Schritte
- Speicherkomplexität:
- Sonstiges (Kommunikationsbandbreite, ...)
Idealisierungen:
- abstraktes Maschinenmodell (Turingmaschine, RAM-Maschine)
- asymptotisches Verhalten (O-Notation).
  - Abschätzung nach oben: worst-case
  - Abschätzung nach unten: best-case
  - mittlere Komplexität: average-case
Untersuchung/Vergleich/Klassifizierung der Komplexität von Algorithmen: Komplexitätstheorie (s. [Pap94], auch [AHU89])

Analyse des Sortierens durch Einfügen

Abhängig vom Input
sei t_j die Anzahl der while-tests für den Wert von j

Insertion_sort(A)

 for j = 2 to length[A]            // c1    n
   do key := A[j];                 // c2    n-1
        i :=  j-1;                 // c4    n-1    
      while  i > 0 and A[i] > key  // c5    sum(j=2 to n) t_j
         do
              A[i+1] := A[i]       // c6    sum(j=2 to n) (t_j-1)
                   i := i-1;       // c7          -"-
         od
       A[i+1] := key;              // c8    n-1

Analyse (2)

Insertion_sort(A)

 for j = 2 to length[A]            // c1    n
   do key := A[j];                 // c2    n-1
        i :=  j-1;                 // c4    n-1    
      while  i > 0 and A[i] > key  // c5    sum(j=2 to n) t_j
         do
              A[i+1] := A[i]       // c6    sum(j=2 to n) (t_j-1)
                   i := i-1;       // c7          -"-
         od
       A[i+1] := key;              // c8    n-1

T(n)

c₁ n + (c₂+c₄+c₈)(n-1)

c₅

j=2

t_j + (c₆+c₇)

j=2

(t_j-1)

Analyse (3)

Zussammenfassen aller Konstanten c_i:

		t_j	T(n)
bester Fall	sortiert	1	a n + b
schlechtester Fall	rückwärts sortiert	j	a n² + b n + c

für große n: nur der höchste Exponent des Polynoms zählt:
- Bester Fall: lineare Zeitkomplexität ( O(n))
- schlechtester Fall quadratische Zeitkomplexität ( O(n²))
Komplexität darstellbar durch ein Polynom über der Problemgröße: polynomielle Komplexität ( O(n^c))

Algorithmenentwurf

Inkrementell: vgl. Sortieren durch Einfügen.
Divide-and-Conquer: rekursive Zerlegung des Problems:
1. Divide: Zerlegen des Problem in (gleichartige, aber kleinere) Unterprobleme
2. Löse die Teilprobleme rekursiv
3. Conquer: Zusammenfügen zur Gesamtlösung.

D&C: Mergesort

klassisches Beispiel für D&C
1. Divide: Zerlege die Sequenz in zwei Hälften
2. Sortiere sie rekursiv
3. Conquer: Verschmelzen (``merge'') der sortierten Sequenzen
Aufruf: Merge_Sort(A, 1, length(A))

Mergesort (code)

Merge_Sort(A,p,r)
  
  if p < r
     then   q := floor(p+r/2);   // the ``middle''
        Merge_Sort(A,p,q);
        Merge_Sort(A,q+1,r);
        Merge(A,p,q,r);

Analyse von Merge-Sort

rekursiver Algorithmus Þ Komplexität durch Rekurrenzgleichung
im schlimmsten Fall

T(n) = ì
í
î

O(1) falls n=1

2T(n/2) + O(n) falls n >1
Vereinfachung: Länge = 2ⁿ
Ansatz:

T(n) = ì
í
î

0 falls n=1

2T(n/2) + n falls n = 2^k, k³ 1
Þ T(n) = n log₂ n

2 Sortieren

Literatur: Kapitel 7 und 8 aus [CLR90]. Knuth [Knu73b] enthält mehr über Sortieren als man wissen will. Heapsort stammt von Williams [Wil64], Quicksort von Tony Hoare [Hoa62]

Inhalt Heaps ·Heapsort ·Quicksort

Heap-Datenstruktur

(gerichteter) Graph G = (V,E):
- V: Menge von Knoten (vertices),
- E: Kanten, binäre Relation auf V (edges)
ungerichteter Graph: E: Menge ungeordneter Paare {u,v} von Knoten mit u¹v (keine self-loops)
Wurzelbaum: (rooted tree): verbundener, azyklischer, ungerichteter Graph mit einem ausgezeichnetem Knoten = Wurzel
Heap: voller, geordneter, binärer Wurzelbaum.
- Binär: Anzahl der Kinder £ 2.
- voll: entweder Blatt oder genau zwei geordnete Kinder
- geordnet: Reihenfolge der Kinder spielt eine Rolle, d.h. hier man kann linkes und rechtes Kind unterscheiden.²
+ Heap-Eigenschaft: Für alle Teilbäume t gilt: t = Node(l, a, r) Þ l = Leaf (und r = Leaf) oder a ³ Key(l) und a ³ Key(r)
Bild: Heap als Baum

Implementierung: Heaps als Array

Implementierung von Heaps als Array: Knoten als Arrayelemente
Þ weitere Zusatzbedingung: alle Ebenen des Baums gefüllt bis auf evtl. die letzte, diese kann von links nach rechts teilgefüllt sein.³
Füllung des Arrays von 1 bis heapsize (Bild)
Repräsentierung des Binärbaumes:

Parent(i) =

ë

i

2
û

Left(i) = 2 i

Right(i) = 2 i + 1
Ein weiteres Mal das Bild: Heap + Implementierung

Heapsort: Aufbau

Ausgangspunkt: Unsortierter Array
zwei Schritte:
1. "` Teilsortierung"': Bilden eines Heaps
2. inkrementelle Sortierung des Heaps
unsortiert ¾® Heap ¾® sortiert

Einfügen in den Heap

Heapify: Einfügen, Erhalt der Heapbedingung
Annahme: der rechte und der linke Teilbaum erfüllen die Heapbedingung!
rekursive Prozedur: `` Einsickern'' des neuen Elementes

Heapify (A, i)                  
  l := Left(i); r := Right(i);  // Left(i), Right(i) are heaps   

  if l <= heapsize(A) and A[l] > A[i]
     then largest := l  else largest := i;
  if r <= heapsize(A) and  A[r] > A[largest]
     then largest := r;

  if largest != i                 // Verletzung der Heapbedingung?
     then exchange (A[i] , A[largest]);
          Heapify(A, largest);

Aufbau des Heaps

repariere alle Verletzungen der Heapbedingung mit Heapify
Bottom-up mittels Heapify
Blätter erfüllen Heap-Eigenschaft Þ Start bei den untersten nicht-Blatt Knoten (ë length(A)/2 û).

Build-Heap(A)  
  heapsize[A]  := length[A];
  for i= floor(length(A)/2)) downto 1
      do 
         heapify(A,i);

Heapsort

Heap als unsortiertes, aber teilsortiertes Reservoir, der Rest des Arrays ist bereits sortiert
Wurzel des Heaps: Maximum
Þ Aufbau der sortierten Elemente von hinten
Entfernen aus dem Heap ist billig (Heapify log₂(n))

Heapsort(A)

   build_heap(A);
   for i = length(A) downto 2
   do  exchange A[1] A[i];
       heapsize[A] := heapsize[A] - 1;
       Heapify(A,1);

Quicksort

Divide & Conquer
im Gegensatz zu Mergesort: Verschmelzen trivial, investiere dafür mehr in das Divide
D&C-Schritte:
1. Divide: Teile die Sequenz s in zwei Teilsequenzen s₁ und s₂, sodaß s₁£ s₂ (punktweise)
2. Sortiere Teilsequenzen s₁ und s₂
3. Conquer: Zusammenfügen trivial

Quicksort (2)

(* $Id: quicksort.ml,v 1.6 1999/11/11 10:43:28 ms Exp $ *)

open Basic;;
open Sort;;

module QuicksortFun (E: ORDERED) : (SORT with type elem = E.t) =
    struct
      type elem = E.t 
     
      let rec filter p l = match l with 
     []     -> []
      | x :: tl ->  
   if   (p x) 
   then  x::(filter p tl)
   else  filter p tl
     
      let rec sort (l : elem list) =   match l with  
        []  -> []
      | x :: tl  -> 
   sort (filter (function y -> E.lt(y,x)) tl)
   @ [x] @                                     (* Pivot *)
   sort (filter (function y -> E.geq(y,x)) tl)
    end

Quicksort mit arrays (1)

Zwei rekursive Aufrufe
das Divide: Partition liefert den Index für die Trennung in die kleinere und größere Hälfte

Quicksort(A,p,r)
if  p < r 
    then   q := Partition(A,p,r)   
           Quicksort(A,p,q);
           Quicksort(A,q+1,r);

Quicksort mit arrays: Partitionieren

Wähle ein Element des Arrays: das Pivot x
Partitionieren: trenne/ordne A in 2 Hälften, links alle £ x, rechts alle ³ x.
Invariante:

I₁	A[i'] £ x £ A[j']	für alle i'< i, j' > j.
I₂	A[i'] £ x £ A[j']	für alle i'£ i, j' ³ j.

Abbruch: (i ³ j) & I₁, d.h., A[p... i-1] £ x £ A[j+1... r], daraus folgt A[p... j] £ x £ A[j+1... r]

Partition(A,p,r)                      /* p <= r         */
  x := A[p];
  i := p-1;
  j := r+1;
 
  while true                          /* Invariante I_2 */
  do     repeat j := j-1
           until A[j] <= x;
         repeat i := i+1
           until A[i] >= x;
         if   i < j                   /* Invariante I_1 */
         then exchange A[i] <-> A[j]  /* Invariante I_2 */
         else return   j;             /* j <= i         */
  od;

Analyse von Quicksort: worst case

Schlechtester Fall: Partitionierung trennt den Ausschnitt [p... r] der Länge n = r-p+1 in einen Teile der Größe 1 und n-1.
Kosten der Partitionierung: O(n)
Rekurrenz: T(n) = T(n-1) +O(n) Þ T(n) = å_k=1ⁿ O(k) = O(n²)
Schlimmster Fall: Falls A bereits sortiert

Analyse von Quicksort: best case

3 Lineares Sortieren

Literatur: Kapitel 9 [CLR90].

Inhalt O-Notation ·Einführung ·Vergleichssortieren ·Counting sort ·Bucket sort

Einführung

Bisher: die Algorithmen O(nlog n) oder O(n²)
Gemeinsamkeit:
Die Ordnung die die Algorithem bestimmen, beruht ausschließlich auf dem Vergleich zwischen Elementen
Þ
Vergleichssortieren

Sortieren: Überblick

Verfahren T_min T_max T_av

Auswahl O(n²) O(n²) O(n²)

Einfügen O(n) O(n²) O(n²)

Bubblesort O(n) O(n²) O(n²)

Mischen O(n log n) O(n log n) O(nlog n)

direktes Mischen O(n log n) O(n log n) O(nlog n)

natürliches Mischen O(n) O(n log n) O(nlog n)

Quicksort O(nlog n) O(n²) O(nlog n)

Heapsort O(n log n)

Table 1: Vergleich

Abschätzung für Vergleichssortieren

Vorraussetzung: Sortieren einer Sequenz (a₁,... a_n) (oBdA: alle Elemente verschieden, wichtig ist nur < oder das Gegenteil.)
mögliche Eingaben der Länge n: alle Permutationen
Entscheidungsbaum: Darstellung der Entscheidungen eines Sortieralgorithmusses
- interner Knoten: a_i:a_j wobei 1£ i<j£ n, repräsentiert den Vergleich von a_i mit a_j, seine Unterbäume die Vergleiche, je nachdem wie sein Vergleich ausgefallen ist.
- Blatt: Permutation
- Lauf der Sortierung: Pfad durch den Baum
Þ Höhe des Baumes @ worst-case der Vergleiche @ worst-case der Laufzeit
Folie: insertion sort

Vergleichssortieren: worst-case

gegeben: Entscheidungsbaum für einen Algorithmus
worst-case = Tiefe des Baumes
Þ Abschätzung für die Laufzeit:

Theorem 1 [Untere Schranke für worst-case] Die Höhe ein Entscheidungsbaums der n Elemente sortiert besitzt eine asymptotische untere Schranke der Größe O(n lg n).

Mischsortierung und Heapsort sind asymptotisch optimal.

Abschätzung der Laufzeit(2)

Beweis von 1:

Es gibt ³ n! Blätter
Eigenschaft eines binären Baumes: n! £ n^h, d.h., h³ lg(n!)
mit Stirling-Approximation n! > ( n/e)ⁿ
Þ h³ n lg n - nlg e
Þ Untere Schranke O(nlg n).

Lineares Sortieren: Counting Sort

Beispiel für einen Algorithmus, der kein Vergleichssortieren ist
man braucht zusätzliche Information
Counting Sort: Information, daß der Wertebereich der Elemente endlich ist: 1..., k mit k =O(n).
Þ Zählen der Elemente =i möglich (im Hilfsarray C[1... k])
kein Vergleich im Algorithmus

Counting Sort

Counting-Sort(A,B,k)
  for i := 1 to k do C[i] := 0;

  for j := 1 to length[A]
  do  C[A[j]] := C[A[j]] + 1  /* C[i]: Anzahl der Elemente = i */

  for i := 2 to k             /* Erlaubter Input von 1...k     */
  do  C[i] := C[i] + C[i-1];  /* C[i]: Anzahl Elemente <= i    */

  for j := length[A]  downto  1
  do
       B[C[A[j]]] :=   A[j];  /* C[A[j]] gibt Pos. in B        */
         C[A[j]]  := C[A[j]] - 1;   
  od;

Analyse von Counting Sort

erste Schleife: O(k)
zweite Schleife: O(n)
dritte Schleife: O(n)

Insgesamt: O(k+n), und falls k =O(n) Þ lineare Laufzeit: O(n)

Bucketsort

Annahme von Bucketsort: uniforme Verteilung der Eingabe im Intervall I = [0, 1[
Teilung von I in n Unterintervalle ( Buckets)
1. Verteilen der Elemente in die Buckets
2. Sortieren der Buckets
3. Aneinanderhängen der sortierten Teillisten

Bucketsort (2)

BucketSort(A) 
  n := length(A);

  for i=1 to n
    do insert A[i] into list B[floor (n * A[i])];

  for i=0 to n-1
    do sort list B[i] with insertion sort;

  concatenate lists B[0], B[1], B[n-1] together;

Bucketsort: Analyse

Alles linear bis auf Insertionsort = quadratisch
Zufallsvariable n_i: Anzahl der Elemente in B[i].
Insertionsort quadratisch Þ erwarteter Gesamtaufwand:

n-1

å

i=0
O ( E(n_i²)) = O æ
ç
ç
è

n-1

å

i=0
( E(n_i²)) ö
÷
÷
ø
Verteilung von n_i: Binomialverteilung B(k,n,p=1/n)
P(n_i = k) = n kp^k q^n-k
E(n_i) = 1 und Var(n_i) = 1- 1/n.
E(n_i²) = Var(n_i)+ E(n_i)² = 2 - 1/n = O(1)
Þ
T(n) = O(n)

4 Analyse

Literatur: Verschiedene Kapitel aus [CLR90]. Daneben Abschnitt 2.5 aus [Heu97].

Inhalt Analyse von Divide and Conquer ·lineare, O(nlog n), polynomielle Komplexität

Laufzeitanalyse für Divide & Conquer

Aufstellen einer Rekurrenzgleichung:

T(n) = O(1) für n£ n₀

T(n) =

a

å

i=1
T(n_i) + D(n) + C(n) für n > n₀
T(n): Laufzeit für Problem der Größe n, D und C Kosten für das Divide resp. Conquer
Vereinfachung: Teilprobleme gleichgroß, n₀ = 1. ferner f(n) ::= D(n) + C(n).
Þ
T(n) = a T(n/b) + f(n)
a³ 1, b > 1 konstant
Beispiel: Merge-Sort:
- Zwei rekursive Aufrufe a=2
- Halbierung der Problemgröße: b=2
- Kosten des Mergens: O(n).

Lösen der Rekurrenzgleichung

Sei n = b^k. Auflösen durch Iteration.

T(n)

a T(

) + f(n)

a² T(

b²

) + a f(

) + f(n)

...

a^k T(

b^k

) +

k-1

i=0

aⁱ f(

bⁱ

)

log_b n

æ
ç
ç
ç
è

log_b n

ö
÷
÷
÷
ø

(log_b n)-1

i=0

aⁱ f(

bⁱ

)

log_b n

T(1) +

(log_b n)-1

i=0

aⁱ f(

bⁱ

)

d n

log_b a

(log_b n)-1

i=0

aⁱ f(

bⁱ

)

Sei f(n) = D(n) + C(n) linear, f(n) = c n.

Spezialfall: lineare Zeitkomplexität

Summe der Größen der Teilprobleme (a n/b) echt kleiner
Þ a < b

T(n)

d n

log_b a

(log_b n)-1

i=0

aⁱ f(

bⁱ

)

d n

log_b a

(log_b n)-1

i=0

c aⁱ

bⁱ

d n

log_b a

+ c n

(log_b n)-1

i=0

æ
ç
ç
è

ö
÷
÷
ø

O(n)

Spezialfall: O(nlog n)

Summe der Größen der Teilpobleme = Größe des Ausgangsproblems:Þ a = b

T(n)

d n

log_b a

(log_b n)-1

i=0

c aⁱ

bⁱ

d n

log_b a

+ c n

(log_b n)-1

i=0

æ
ç
ç
è

ö
÷
÷
ø

d n + c n

(log_b n)-1

i=0

O(nlog n)

Beispiel: Mergesort

Spezialfall: polynomiale Laufzeit

Summe der Größen der Teilpobleme größer als das Ausgangsproblem Þ a > b

T(n)

d n

log_b a

(log_b n)-1

i=0

æ
ç
ç
è

ö
÷
÷
ø

d n

log_b a

+ c n

æ
ç
ç
è

ö
÷
÷
ø

log_b n

-1

æ
ç
ç
ç
ç
ç
è

log_b a

+ n

æ
ç
ç
è

ö
÷
÷
ø

log_b n

ö
÷
÷
÷
÷
÷
ø

æ
ç
ç
ç
è

log_b a

+ n

log_b n

ö
÷
÷
÷
ø

æ
è

log_b a

ö
ø

5 Elementare Datenstrukturen

Literatur: Kapitel 11 [CLR90].

Inhalt Stacks und Queues ·verzeigerte Listen ·Bäume ·Implementierungsmöglichkeiten

Einleitung

"`dynamische Mengen"': veränderbar
viele verschiedene Varianten
Unterschieden nach
- Zugriffsmöglichkeiten (Schnittstelle)
- Repräsentierung
zwei Arten von Zugriffen
- modifizend
- lesend (queries)
Beispiele für Zugriffe:
- Suchen
- Einfügen, Löschen
- Minumium, Maximum bestimmen
- Vorläufer, Nachfolger bestimmen
- ...
Beispiele für Repräsentierungen:
- (einfach o. doppelt) verzeigerte Listen
- Bäume unterschiedlichster Art (balanciert, Heaps ...)
- Hashstrukturen

Stacks und Queues

Stack/Queue: dynamische (Multi-)Mengen mit spezifischer Strategie zum Einfügen und Löschen:
- Stack: Lifo: last-in, first-out
  - Push: Einfügen
  - Pop: Entfernen
- Queue: Fifo: first-in, first-out
  - Enqueue: Einfügen
  - Dequeue: Entfernen

Stack als Array

Implementiert als Array 1... n
dynamischer Inhalt: Elemente S[1], ... S[top]
Komplexität: O(1)

Stack-empty(S)
  if top == 0 then return true else false;

Push(S,x)
  top    := top + 1;
  S[top] := x;

Pop(S)
  if Stack-empty(S)
  then error "underflow"
  else top  := top  -1;
       return S[top+1];

Queues als Array

Array als Ringpuffer (circular buffer)
zwei Pointer: head and tail: erste benutzte und erste freie
Komplexität: O(1)

Enqueue(Q,x) =
  Q[tail] := x;
  if tail == length(Q)
     then tail := 1       // start again with 1
     else tail := tail + 1;


Dequeue(Q) =
  x := Q[head]
  if head == length(Q)
     then head := 1        // start again with 1
     else head := head + 1
  return x;

Verzeigerte Listen

lineare Datenstuktur
keine wahlfreier Zugriff wie beim Array, sonder über Zeiger
Verschiedene Varianten:
- einfach verzeigert: nur prev
- doppelt verzeigert: prev und next
- zirkulär

Verzeigerte Listen (2)

Operation

Komplexität

Einfügen

O(1)

Löschen (bei geg. Element)

O(1)

Suchen

O(n)

verzeigerte Listen (3)

List-search(L,k)     // k: key  
  x  := head
  while  x != nil and x.key != k
     do  x := next(x);

  return x;

List-insert(L,x)            // vorne Einfuegen
  next(x) := head;
  if head != nil then prev(head) := x
     head := x
  prev(x) := nil

List-delete(L,x)
  if prev(x) != nil
     then next(prev(x)) := next(x)
     else          head := next(x)
  if next(x) != nil
     then prv(next(x)) := prev(x);

6 Hashstrukturen

Literatur: Kapitel 12 aus [CLR90]. Hashfunktionen werden auch in [Knu73b] diskutiert.

Inhalt Hashstrukturen ·Hashing mit externer Verkettung ·Hashing mit offener Adressierung ·Hashfunktionen

Einleitung

drei Operationen eines Wörterbuches (dictionaries)
- Suchen
- Einfügen
- Entfernen
Hashtabellen: effizient zur Implementierung von Dictionaries

Adreßtabellen mit direktem Zugriff

implementiert mit Arrays, Zugriff direkt über Index = Schlüssel (key, eindeutig)
Suchen, Einfügen, Entfernen: in konstanter Zeit (O(1)).

Search(T,k)   = return T[k];

Insert(T,x)   = T[key(x)] := x;

Delete(T,x)   = T[key(x)] := nil;

Problem:
- machbar nur für kleine Bereiche der Schlüssel, Platzverschwendung
- nur destruktives Einfügen möglich
Þ Hashtabellen

Hashtabelle

Verallgemeinerung von Arrays mit direkten Zugriff
gegeben: Bereich U der Schlüssel (``Universum'')
hash-Funktion: h : U ® {0,... , m - 1}
- |U|> m
- Þ h nicht injektiv Þ Kollision
- h(k): Hashwert von k
- ``zufällige'' Funktion

Kollisionsauflösung: Verkettung

Verkettung (chaining, auch external chaining)
Bild
Varianten: Eindeutiger Schlüssel, implementierbar durch
- Überschreibendes Einfügen, oder
- Löschen nur mittels key (Delete(k)) und Löschen von allen Elementen mit passendem key, search gibt nur den ersten Treffer zurück.

Insert(T,x) = T[h(key(x))] := insert x at the head of T[h(key)];

Search(T,k) = Search for an element with key k in T[h(k)];

Delete(T,x) = Delete x  from list  T[h(k)];

Analyse

Definition 1 [Belegungsfaktor] Der Belegungsfaktor a (load factor) einer Hashtabelle T[0,..., m-1] ist definiert als

a =

wobei n gleich die Anzahl der gespeicherten Elemente ist.

Worst-case: alle Elemente mit dem selben Schlüssel Þ O(n)
im Mittel:
- Annahme: Gleichverteilung = einfaches, uniformes Hashing
- Hashfunktion h(k) mit konstantem Aufwand O(1)
- Þ Suchen nach Element mit Schlüssel k: linear in der Länge von T[h(k)]

Analyse (2)

Satz 1 Das erfolgreiche sowie erfolglose Suchen in einer Hashtabelle mit Verkettung und unter der Annahme einfachen, uniformen Hashings benötigt im Mittel O(1+a) Zeitaufwand.

Beweis: Unterscheidung in erfolglose und erfolgreiche Suche. erfolglos

eine Liste wird bis zum Ende durchsucht
durchschnittliche Länge der Listen: a = n/m
ÞO(1+ a)

erfolgreich Annahmen:

alle Schlüssel gleichwahrscheinlich, kein Schlüssel doppelt, Anfügen ans Ende

Ansatz:

|Zugriffe beim Finden von e| = |Zugriffe beim Einfügen von e| +1

Durschnittliche Länge beim Einfügen des i-ten Elements: i-1/m im Durchschnitt: 1/n å_i=1ⁿ(1+i-1/m) = ... 1 + a/2 - 1/2m Þ O(1+a)

Hashfunktionen

Ziel: Gleichverteilung der Ergebnisse j von h(k) (aus dem Bereich 0 bis m-1):

å

{k| h(k) = j}
P(k) =

1

m
falls keys gleichverteilt aus [0,1[ Þ h(k) = ë k m û Î {0, ..., m-1}
ansonsten: Heuristiken
Divisionsmethode h(k) = k mod m

Multiplikationsmethode h(k) = ë m(k A - ë k A û) û (mit 0<A<1)

Universal hashing ``zufällige'' Auswahl von h
wichtig: Auswahl der Parameter, abhängig auch von den keys
- Divisionsmethode: m prim, möglichst nicht nahe 2er-Potenz
- Multiplikation: m egal

Offene Adressierung

alle Elemente in der Hashtabelle gespeichert (keine Pointer, keine externen Listen) Þ Verkettung wird errechnet
Belegungsfaktor £ 1
Sondierung (probe): Suche nach freiem Slot
Þ Hashfunktion
h: U * {0,... m-1} ® {0,...,m-1}
Sondierungs-Sequenz (probe sequence) für Schlüssel k:
(h(k,0), h(k,1), ..., h(k, m-1))
gute Hashfunktion: Vermeidung von Häufungen (clusters)

Offene Adressierung: Hashfunktionen

lineares Probing
- gegeben: h': U ®{0,... m-1}: gewöhnliche Hashfunktion
  h(k, i) = ((h'(k) + i) mod m)
- Probe-Sequenz: T[h'(k), h'(k)+1, ...]
- Problem: primäre Häufung
Quadratisches Probing
- h' wie oben
  h(k, i) = ((h'(k) + c₁ i + c₂ i²) mod m)
Doppeltes Hashing
- gute Methode
- h₁, h₂: zwei gewöhnliche Hashfunktionen
  h(k, i) = (h₁(k) + i h₂(k)) mod m
- h₂(k) sollte relativ prim zu m sein!

7 Binäre Bäume

Literatur: Kapitel 13 aus [CLR90]. Balancierte Bäume stammen aus [AVL62].

Inhalt Binäre Bäume ·Baumoperationen

Einleitung

Unterstützung vieler Wörterbuchoperationen
Baumstrukturen effizient
Effizienz der Operationen proportional Höhe des Baumes = O(log n) (falls der Baum ``ausgeglichen'')
Viele Varianten, abhängig von der Anwendung
- Rot/Schwarz-Bäume [Bay72]
- B-Bäume
- AVL-Bäume [AVL62]
- Splay-Trees
- (a,b)-Bäume, z.B. (2,3)-Bäume (2-3-Bäume)
- selbst-balancierende Bäume
- ...

Binäre Suchbäume

Definition 2 [Binärer Suchbaum] Ein binärer Suchbaum ist ein binärer Baum (left, right, (evtl. parent)) bei dem für alle Knoten n gilt:

key(l) £ key(n) £ key(r).

wobei l und r beliebige Knoten aus dem rechten bzw. linken Unterbaum von n sind

Die Elemente des Baumes sind `` sortiert''
Þ Ausgeben der sortierten Elemente = rekursives Durchlaufen des Baumes (in-order tree walk)⁴

Durchlaufen

InOrder-Tree-Walk(t) =
  if   t != nil
  then InOrder-Tree-Walk(left(t));
       print (key(t));
       InOrder-Tree-Walk(right(t));

Baumoperationen: Suchen

wichtige Operation auf Suchbäumen
Komplexität: O(h), wobei h die Höhe
Minimum/Maximum bestimmen: genauso einfach (der linkeste/rechteste Knoten im Baum)

Search(t,k) =                // t : tree, k : key
  if         t == nil    then raise error("Not found")
  else if    k == key(t) then return t
  else if    k <  key(t) 
       then Search( left(t),k)
       else Search(right(t),k)

Baumoperationen: Suchen (2)

Hier das Ganze nochmals iterativ

Search(t,k) =                // t : tree, k : key
  while (t != nil) and (k != key(t))
  do
    if k < key(t)
       then t :=  left(t)
       else t := right(t)
  od;
  if   (t == nil) 
  then raise error("Not Found")
  else return t

Baumoperationen: Einfügen

Einfügen immer an den Blättern
Komplexität: O(h)

Einfügen: code

Insert(T,z) =              // T : tree, z : node to insert
  y := nil; x := root(T);  // zwei Hilfsvariablen
  while  x != nil          // finde das passende Blatt
  do
    y := x;                // y zum merken des Vaters
    if   key(z) < key(x)
    then x := left(x) 
    else x := right(x)
  od;                     
  p(z) := y;               // => x ist nil, y sein Vorgaenger
  if   y = nil             // Sonderfall: y = Wurzel;
  then root(T) := z
  else if   key(z) < key(y)// f"uge an der passenden Stelle
       then  left(y) := z  // z als neues Blatt ein.
       else right(y) := z

Baumoperationen: Löschen

Problem (s. Bild):
- Erhalt der Baumeigenschaft: innere Knoten müssen ersetzt werden
- Erhalt der Sortierungseigenschaft: der Ersatz muß passen
Baumnachfolger eines Knotens x: Nachfolger in der in-order-Baumordnung
- falls Knoten mit rechtem Kind:
- Þ Nachfolger = der ``linkeste'' Knoten im rechten Teilbaum.
- Þ Nachfolger hat kein linkes Kind!
- Þ key(left(x)) £ key(x) £ keysucc(x) £ key(right(x))⁵
Þ
Nachfolger ersetzt zu löschenden inneren Knoten
Komplexität: O(h)

Delete(T,z)           // T = tree, z = zu loeschender Knoten
  if   left(z) = nil or right(z) = nil
    then y := z              // y tritt an die Stelle von x
    else y := Successor(z);  // wobei: y hat <= 1 Kind!

  if left(y) != nil          // Bestimmung des Kindes x
     then x :=  left(y)      // von y.
     else x := right(y);
                                 // Ver"andern der Verzeigerung
  if x != nil then p(x) = p(y);  // y herausgenommen => x mit 
                                 // neuem Vater
  if p(y) = nil                  // Spezialfall: wurzel
    then root(t) = x
    else if  y = left(p(y))
           then  left(p(y)) := x
           else right(p(y)) := x  // y ist nun  vom
                                  //  urspr. Platz entfernt

  if y != z then key(z) := key(y);// z durch y ersetzen

  return y;

8 Rot-schwarz-Bäume

Literatur: Kapitel 13 aus [CLR90]. Die Rot/Schwarz-Bäume wurden von [Bay72] eingeführt.

Inhalt Rot/schwarz-Bäume ·Rotation ·Erhalt der Rot-Schwarzeigenschaft bei Einfügen und Löschen

Einführung

Hauptproblem der Suchbäume: Effizienz hängt von der Höhe ab
Þ je balanzierter desto "`besser"' der Baum
für die Suche: ja; andererseits
- dauerndes Rebalanzieren kostet auch Zeit ÞBalanciertheitsanforderungen am besten nicht zu strikt (vor allem bei vielen Lösch- und Einfügeoperationen
- Wie stellt man fest ob ein Baum balanciert ist? (Laufzeit!)
- speichert man Zusatzinformationen darüber ab? (Speicherplatz!)

Definition

zwei Arten von Knoten: Schwarze werden strikt balanciert, rote dienen als Schlupf.
Anteil des Schlupfes muß beschränkt sein

Definition 3 rot/schwarz-Bäume sind binäre Suchbäume mit einem Bit Zusatzinformation: der Farbe und folgenden Bedingungen:

jeder Knoten ist entweder rot oder schwarz
Blätter (nil) sind schwarz
die Kinder eines roten Knotens sind schwarz
jeder einfache Pfad von einem gegebenen Knoten zu einem Blatt enthält die selbe Anzahl an schwarzen Knoten⁶

Bild
Schwarzhöhe bh(x) eines Knotens: die Anzahl der schwarzen Knoten auf den Pfaden (ausschließlich x) zu den Blättern

Lemma 2 Ein rot-schwarz Baum mit n internen Knoten hat eine Höhe von höchstens 2lg(n+1).

Þ die Operationen Suchen, Minimum, Maximum, Successor, Predecessor: O(lg n).
Einfügen und Löschen?

Rotation

Rotation
Erhalt der In-Ordnung der Schlüssel
Komplexität O(1)
Bild

Rotate-l(t,x) =                   // t = Baum, x = Knoten
  if    (x = nil) or (right(x) = nil)
  then  raise error "illegal rotation"
  else  y := right(x);          // rette y
       p(y) := p(x);              // ver"andere y's Verwandschaft
       if   y != nil              
       then right(x) := left(y);  // beta
       if   (left(y)) != nil
       then p(left(y)) := x;
 
       left(y):= x                // x != nil
       if   root(t) = x           // Spezialfall
       then root(t) := y
       else if   x = left(p(x))  // p(x) definiert
            then  left(p(x)) := y
            else right(p(x)) := y

       left(y) := x              // zum Schluss: x als Kind von y
       p(x)  := y;

Einfügen

Zunächst Einfügen wie im gewöhnlichen binären Suchbaum
Þ neues rotes Blatt.
- keine Schwarz-Verletzung, aber u. U.
- Rot-Verletzung
Bei rot-Verletzung:
- Reparieren durch Umfärben und Rotation
- keine Neueinführung von Schwarzverletzungen

Einfügen: drei Fälle (+ 3 symmetrische)

Die Graphik sind leider noch nicht nach HTML übersetzbar

insert(T,x) 
  tree_insert(T,x);                          // normal einfuegen 
  color(x)  := red                           // am Anfang rot
 
  while x != root(t) and color(p(x)) = red   // Rot-verletzung
  do
    if  p(x) = left(p(p(x));                 // Vater ist linker Sohn
       then  y := right(p(p(x))              // y = Onkel, d.h.
                                             // rechter Sohn des Opas
             if  color(y) = red              // Onkel rot
                then  color(p(x))  := black; // => umfaerben
                      color(y)     := black;
                     color(p(p(x)) := red;
                                 x := p(p(x))
                else if x = right(p(x))      // Onkel schwarz
                        then x := p(x);      // x ist rechtes Kind
                             left_rotate(T,x) 

                     color(p(x)) := black;   // Vater <- schwarz
                     color(p(p(x)) := red;   // Opa   <- rot
                    right_rotate(T,p(p(x))); // Ausgleich
        else ....... // analog
  done;
  color(root(T)) := black;

Löschen

Siehe Übung

9 Graphen

Literatur: Kapitel 23 aus [CLR90]. Breitensuche stammt von Moore [Moo59]. Der Erfinder der Tiefensuche scheint unbekannt. Der angegebene Algorithmus für die starken Zusammenhangskomponenten ist von Tarjan [Tar72].

Inhalt Graphen ·Repräsentierungen ·Erreichbarkeit ·Breitensuche ·Tiefensuche ·backtracking ·topologisches Sortieren ·Berechnung starker Zusammenhangskomponenten

Suchen in Graphen

Wichtige Klasse von Algorithmen, viele Anwendungen
Problem: Durchlaufen eines gegebenen Graphen, mit Besuch der Knoten + Berechnung von Strukturinformation über den Graphen
Unterscheidung nach
- Durchlaufordnung und (davon abhängig)
- Art der Zusatzinformation über den Graphen und seine Struktur: z. B.
  - gegenseitige Erreichbarkeit von Knoten
  - Zyklen
  - Bäume als Teilstrukturen im Graphen
  - (stark) zusammenhängende Teilgraphen
Zwei Klassiker:
1. Tiefensuche
2. Breitensuche

Graphen und ihre Repräsentierung

Definition 4 [Graph] Ein (gerichteter) Graph G = (V,E): V Menge von Knoten, EÍ V × V Kanten.

Zwei Standardmöglichkeiten:
1. Adjazenzlisten
2. Adjazenzmatrix
Speicherbedarf:
- Adjazenzliste: O(V+E)
- Adjazenzmatrix: O(V²)

Breitensuche

klassischer Graphsuchalgorithmus, Reihe von Verallgemeinerungen
ursprüngliches Problem [Moo59]: kürzeste Wege in Labyrinthen
Problem:
- gegeben: G = (V,E) + einen ausgezeichneten Knoten (Quelle) sÎ V.
- gesucht: Alle von s aus erreichbaren Knoten
- Zusatzinfo:
  - Abstand d(s,u) jeden Knotens u zu s⁷
  - Breitensuchbaum: Baum mit kürzesten Pfaden von s zu jedem Knoten.

Prinzip

Grundgedanke der Breitensuche:

Suche ``in die Breite'': Bevor Knoten mit Abstand k+1 von der Quelle entdeckt (bzw. abgehandelt) werden, sind alle Knoten mit Abstand k" entdeckt (bzw. abgehandelt)
Sicherstellung der Breitendurchlaufordnung:

Behandlung der entdeckten Knoten in Fifo-Manier (Queue)

Breitensuche (2)

Zur Erkennen von bereits gesehenen Knoten: 3 Farben:⁸
1. weiß: unentdeckt
2. grau: entdeckt, aber noch nicht fertigbehandelt
3. schwarz: fertig (und damit auch entdeckt)
Reihenfolge: weiß Þ grau Þ schwarz⁹
Zusatzinfo:
- Distanz: Distanz des Knotens, von dem man entdeckt wird + 1
- Breitensuchbaum: Merken des Knotens, von dem man entdeckt wird.

bfs (G,s) =      // Graph und Quellknoten 
  for each vertex u in V[G] - {s}
  do color[u] := white
     d[u]     := $\infty$;
     p[u]     := nil
  done;
  color[s]    := gray;
  d[s]        := 0;
  p[s]        := nil;
  Q.enqueue(s);                 // beginne mit der Quelle

  while not Q.isempty()
  do
     u := Q.head();             // noch kein dequeue!
     for each v in Adj[u]       // alle Nachbarn.
     do
        if   color[v] = white
        then color[v] := gray;
             d[v]     := d[u] + 1;
             p[v]     := u
             Q.enqueue(v)      // speichere den Nachbarn
        fi;
     done;
     Q.dequeue()            // u ist abgearbeitet
     color(u) := black;     // und als fertig markiert
  done

Breitensuchalgorithmus: Analyse

Zeitkomplexität:
- jeder Knoten wird höchstens einmal in Q eingereiht, und damit auch höchstens einmal aus ausgereiht: O(V)¹⁰
- für jeden Knoten wird die Adjazenzliste durchlaufen, insgesamt höchstens O(E)
Þ O(E+V)

Korrektheitsargument

Siehe Vorlesung

Tiefensuche

Suche zunächst in die Tiefe¹¹
Wie bei Breitensuche: Farben zur Suchsteuerung
1. Weiß: ungesehen
2. Grau: entdeckt
3. Schwarz: fertig
anstelle von Queue: Stack
``Backtracking''
Teilgraph der Vorgänger G_p= (V, E_p):

E

p
={(p(v),v) | vÎ V, p(v) ¹ ^}
Þ Menge von Tiefensuchbäumen (= Tiefensuchwald, depth-first forest)
Zusatzinformation: Zeitstempel d[v] (discovered) und f[v] (finished) wobei d[v] < f[v].

Algorithmus (1)

DFS(G)                           // Gerichteter Graph
  for all vertices $v \in V[G]$  // Initialisierung
  do 
     color[u] := white;          
      pred[u] := nil; 
  od
  time := 0;                     // Ende der Initialisierung
  for all vertices  $u \in V[G]$
  do
      if color[u] = white then DFS-Visit(u); // eigentl. Tiefensuche
  done;

Algorithmus (2)

DFS-visit(u)                       // Eigentliche Tiefensuche
  color[u] := gray;                // Knoten entdeckt
  time := time + 1;  d[u] := time; // merke Entdeckungszeit
  for each v in Adj[u]             // erkunde Kante (u,v)
  do  if   color[v] = white
      then pred[v] := u            // pred = Entdeckerknoten
           DFS-visit(v)            // rek. Abstieg
  done;
  color[u] := black;               // u ist fertig, merke
  time := time + 1; f[u] := time;  // die Fertigstellzeit

Tiefensuche: Analyse

Bild 23.5(1)
Komplexität:
- O(V) für DSF
- O(E) für DFS-Visit
- Þ Laufzeit für Tiefensuche: O(E+V)

Weitere Eigenschaften

[Klammerung] Gegeben zwei Knoten u, v aus G = (V, E). Es gilt genau eine der folgenden Bedingungen:

[d[u],f[u]] ist echtes Teilintervall von [d[v], f[v]], u ist Nachfahre von v in Tiefensuchbaum
Symmetrisch.
[d[u],f[u]] und [d[v], f[v]] disjunkt

Þ Verschachtelung der Intervalle:

Knoten v ist echter Nachfolger von u im Tiefensuchwald gdw. d[u] < d[v] < f[v] < f[u]

Klassifikation von Kanten:
- Baumkante: Kanten des Tiefensuchwaldes
- Rückwärtskante: Kanten von Nachfahren zu Vorfahren in einem Tiefensuchbaum (inkl. Selbst-Schleifen)
- Vorwärtskante: Kante von Vorfahren zu Nachfahren gemäß einen Tiefensuchbaumes, die nicht im Baum sind
- Querkante: alle anderen

Topologisches Sortieren

Anwendung der Tiefensuche
algorithmische Umsetzung der bekannten Tatsache: jede Halbordnung läßt sich zu einer totalen/linearen Ordnung erweitern.
Graphdarstellung einer Halbordnung: DAG = "`Gerüst"' der Ordnung

Zunächst ein paar Definitionen:

Definition 5 Gegeben eine binäre Relation R. Die reflexive, transitive Hülle R of R ist gegeben als die kleinste binäre Relation sodaß x R x und x R y R z impliziert x R z. Mit R⁺ ist die Relation R R gemeint.

Definition 6 Eine binäre Relation R Í S × S auf einer Menge S ist eine Halbordnung (Notation dann oft £ für R) wenn sie reflexiv, transitiv, und antisymmentrisch ist. Eine totale oder lineare Ordnung ist eine Halbordnung mit der zusätzlichen Eigenschaft der Vergleichbarkeit. (" x,y. x£ y oder y£ x)

Definition 7 [DAG] Ein gerichteter, azyklischer Graph (DAG) ist ein gerichteter Graph ohne Zyklen, d.h., es für alle Knoten u, v Î V gilt: Wenn u ®⁺ v, dann u ¹ v.

Eine topologische Sortierung eines DAGs G ist eine lineare Ordnung der Knoten von G, Kompatibilität: falls (u,v) eine Kante auf G, dann u < v in der linearen Ordnung.
d.h., kein Sortieren wie bei den Sortieralgorithmen
Bild
Lineare Ordnung = Zeitstempel der Schwarzfärbung = f-Zeit.

Topologisches Sortieren (2)

Eingabe: DAG ("`="' Halbordnung), Ausgabe: verzeigerte Liste ("`="' lineare Ordnung)

Topological-Sort(G)               // G ist ein DAG

  call DFS(G) to compute  finishing-times f[v] for all v;
  as each vertex is finished, insert it onto the front of a list;
  return the linked list

Komplexität: Laufzeit O(V+E).

Topologisches Sortieren (3)

Satz 2 [Weiße Pfade] Gegeben Graph G. Im Tiefensuchwald für G gilt: v ist Nachfahre von u gdw. zur Zeit d[u] der Knoten v durch u auf einem weißen Pfad erreichbar ist.¹²

Lemma 3 Ein gerichteter Graph ist azyklisch gdw. die Tiefensuche keine Rückwärtskanten produziert.

Beweis: Sei G zyklisch Þ es gibt einen Zyklus c: w ®⁺ w. Sei v der erste entdeckte Knoten aus c und u sein Vorgänger im Zyklus. Zur Zeit d[v]: weißer Pfad v ®^* u Þ u wird Nachfolger im Tiefensuchwald Þ Behauptung ((u,v) ist Rückwärtskante). Þ DFS findet Rückwärtskante (v,u), andererseits u ®^* v mittels Baumkanten (weil u Vorgänger von v im Tiefensuchbaum)

Lemma 4 [Korrektheit] Der Algorithmus angewandt auf einen DAG, liefert eine topologische Sortierung.

Beweis: Prüfen der Kompatibilität: falls u ®⁺ v in G, dann f[u] < f[v]. Sei (u,v) eine Kante. Wenn sie mit DFS erkundet wird, ist v nicht Grau (sonst wäre v ein Vorfahre Þ Rückwärtskante) Þ v ist weiß oder schwarz. v weiß v wird Nachfahre von u Þ f[v] < f[u] v schwarz Dann sofort f[v] < f[u]

Starke Zusammenhangskomponenten

klassische Anwendung der DFS: Zerlegen eines Graphen in stark-zusammenhängende Komponenten

Definition 8 [Starker Zusammenhang] Gegeben gerichteter Graph G = (V, E). Eine starke Zusammenhangskomponente von G ist eine maximale Knotenmenge UÍ V mit: für alle u₁, u₂ Î U gilt u₁®^* u₂ und u₂®^*u₁.

Idee: G und G^t haben die selben starken Zusammenhangskomponenten Þ zweimaliges Anwenden von DFS, auf G und auf den transponierten Graphen¹³ G^t
Komplexität: lineare Zeitkomplexität O(E+V)

Algorithmus

Strongly-connected-components(G)    // G: gerichteter Graph

  call DFS(G) to obtain finishing times f[u] for the vertices;

  compute $G^t$ = transpose(G)        // transponiere G

  call DFS($G^t$), but in the main loop of DFS, 
       consider the vertices in order of 
       decreasing f[u]

  output the vertices of each tree in the depth-first 
      forest from the previous step as a separated strongly 
      connected component.

Analyse

Vorvater f(u) eines Knoten u ist derjenige Knoten w mit u®^* w und maximalen f[w].

Lemma 5 Der Vorvater f(u) bzgl. einer Tiefensuche ist ein Vorgänger von u,

Für alle Knoten u gilt: u und f(u) liegen in der selben starken Zusammenhangskomponente.

Beweis: Folgt direkt aus dem vorangegangenen und der Definition von Vorvater.

Analyse (2)

es gilt also: für jede SCC ist der Vorvater
- der erste Knoten der entdeckt wird und
- der letzte Knoten der beendet wird!
Þ

die starke Zusammenhangskomponente von r sind diejenigen Knoten die von r in G^t erreichbar sind.

10 Spannbäume

Literatur: Kapitel 24 aus [CLR90].

Inhalt Kantengewichte ·minimale Spannbäume·greedy-Strategien ·Kruskals Algorithmus ·Prims Algorithmus

Minimaler Spannbaum

Motivation: Verknüpfung¹⁴ einer geg. Anzahl von Knoten mit minimalen Kosten (Verkabelung, Routing, ...)
Verknüpfung von n Knoten: mit n-1 Kanten
Kosten: modelliert als "` Kantengewicht"'
Gegeben:
- G = (V, E) ungerichtet, verbunden, und mit E Í V × V Menge potentieller Verbindungen
- Kantengewicht: w: V² ® R.
Gesucht: TÍ E sodaß
- azyklisch (Baum)
- Verbindung aller Knoten (aufspannend, spanning)
- minimale Kosten
  
  w(T) =
  
  å
  
  (u,v) Î T
  w(u,v)
  minimal.
Þ Problem des minimalen Spannbaums
Beispiel für greedy-Strategie
Bild

Spannbaumalgorithmus

greedy-Strategie:
- Heuristik für Optimierungsprobleme
- falls eine Entscheidung zu treffen ist: entscheide dich für die augenblicklich beste Alternative (ohne auf mögliche Nachfolge-Vorteile zu achten)
iterativer Aufbau eines minimalen Spannbaumes
Þ schrittweises Hinzufügen von Kanten.

Definition 9 Sei A Teilmenge eines minimalen Spannbaumes für G. Eine Kante (u,v) ist sicher für A, falls A È {(u,v)} Teilmenge eines minimalen Spannbaumes ist.

Generic-MST(G,w) =
  A := 0;
  while A does not form a spanning tree
  do 
    find an edge (u,v) that is safe wrt. A
    A := A $\cup$ {(u,v)}
  done;
  return A

Sichere Kanten

Problem: wie findet man sichere Kanten?

Definition 10 Ein Schnitt (S, V-S) (cut) eines ungerichteten Graphen ist eine Partition von V. Eine Kante kreuzt den Schnitt, falls ein Endpunkt in S ist und der andere in V-S. Ein Schnitt respektiert eine Menge von Kanten, wenn keine Kante den Schnitt kreuzt. Eine Kante, die einen Schnitt kreuzt, ist leicht falls ihr Gewicht von allen kreuzenden Kanten minimal ist.¹⁵

Theorem 6

G = (V,E) zusammenhängend, ungerichtet, mit reellwertiger Gewichtsfunktion w : E ® R.
A Í E, A Teil eines min. Spannbaumes
(S, V-S): Schnitt der A respektiert
(u,v): leichte Kante, die den Schnitt (S, V-S) kreuzt
Þ (u,v) sicher für A.

minimaler-Spannbaum-Algorithmus

während der Algo läuft: A immer azyklisch (Invariante)
Þ G_A = (V, A) Wald
zu Beginn: Wald mit |V| (einknotigen) Bäumen
jede hinzugefügte sichere Kante verknüpft zwei Bäume
Þ Schleife |V| -1-mal durchlaufen

G = (V,E) zusammenhängend, ungerichtet, Gewichtungsfunktion W: E ® R.
A Í E, A Teil eines min. Spannbaumes
C eine Zusammenhangskomponente (hier Baum) im Wald G_A = (V, A).

Es gilt: Wenn (u,v) eine leichte Kante ist die C mit einer anderen Komponente verbindet, dann ist (u,v) sicher für A.

Kruskals Algorithmus

Spezialisierung des generischen Algorithmus'
greedy-Strategie
direkt Umsetzung des Korollars 10
Þ sichere Kante = die mit dem geringsten Gewicht, die zwei Bäume verbindet.
Þ nimm immer die Kante mit geringstem Gewicht: wenn sie zwei Komponenten verbindet: hinzufügen, wenn nicht, ignorien
Hilfsfunktionen + Hilfsdatenstrukturen:
- Wald = disjunkte Mengen/Partition (von Knoten)
- find-set: finde Repräsentanten
- Union: Vereinigung
- Makeset: ein-elementige Menge

Kruskal (2)

mst-kruskal(G,w) 
  A := 0;                   // A: Kantenmenge
                            // Invariante: A Teil eines min. S-B
  for all $v \in  V[G]$
  do Make-Set(v) done;      // Wald aus lauter Knoten

  sort the edges of $E$ by non-decreasing weight $w$;
 
   for all edges $(u,v) \in E$ (in order)
   do
     if   Find-Set(u) $\not=$ Find-Set(v) // nicht im selben Baum?
     then 
       A := A $\cup$ {(u,v)};// fuege Kante hinzu
       Union(u,v);           // vergroebere Partition
     fi;
   done;
   return A;

Kruskal (3)

Laufzeit von Kruskal:
hängt von der Implementierung der Hilfsstukturen ab

Initialisierung O(V)

Sortieren O(Elog(E))

innere Schleife O(E)

Datenrepräsentierung a(E,V).
Þ O(Elog(E))¹⁶

Prims Algorithmus

Spezialisierung des generischen Algorithmus'
A: kein Wald, sondern ein einzelner Baum¹⁷
Wachsen des Baumes startend von beliebiger Wurzel r
Baum bestimmt den Schnitt
Þ Iterationsschitt: füge leichte Kante vom Baum nach außerhalb des Baumes hinzu
greedy: mit jedem Schritt wird der Baum minimal schwerer
Datenstruktur
- Ordnen der Knoten außerhalb des Baumes
- Þ Priority Queue (z.B. wieder mittels Heap)

mst-prim(G,w,r)            // G = Graph, w = Gewichtung,  r: Wurzel
  Q := V(G);               // priority queue von Knoten
                           // Q : Knoten noch nicht im Baum

  for all $u \in  Q$ do key[u] := $\infty$ done;
  key[r] := 0;                 
  p(r)   := nil;           // r ohne parent
  while  Q $\not= \emptyset$
  do
    u := extract_min(Q);   // u dem Baum hinzugefuegt
    for all $v \in Adj(u)$ // bewerte alle Nachbarn
    do
       if   $v \in$ Q and $w(u,v) < key(v)$
       then p(v)   := u;   // parent
            key(v) := w(u,v)   
       fi
    done
  done

Prim (3)

11 K"urzeste Pfade

Literatur: Teile von Kapitel 25/26 aus [CLR90]. [Ski97]

Inhalt Einleitung ·Varianten ·Relaxation ·Dijkstras Algorithmus ·Bellman-Ford ·lineare Programmierung

Einleitung

Motivation: Routing, Streckenplanung
klass. Beispiel f"ur ein (gutartiges) Optimierungsproblem
gegeben: gerichteter Graph mit Gewichtungsfunktion w: E ® R
Problem: finde einen Verbindung/Pfad mit minimalen Kosten

K"urzeste Pfade: Definition

Definition 11 [K"urzester Pfad] Gegeben G = (V, E) gerichteter Pfad, w : E ® R. Das Gewicht eines Pfades p = (v₀, v₁, ..., v_k) ist definiert:

w(p) =

i=1

w(v_i-1, v_i).

Das Gewicht des k"urzesten Pfades von u nach v ist das Minimum:

d(u,v) =

ì
ï
í
ï
î

min{w(p) | u

falls $ Pfad von u nach v

sonst

Ein k"urzester Pfad von u nach v ist ein Pfad von u nach v mit w(p) = d(u,v).

Problemvarianten

spezifizierte Quelle (single-source): finde einen k"urzesten Pfad von einem gegeben Knoten f"ur jeden Zielknoten
spezifiziertes Ziel: (single-destination): duales Problem
spezifizierte Quelle und Ziel (single-pair)
k"urzeste Pfade f"ur alle Knotenpaare.

K"urzeste Pfade

Hier: single-source
Eingabe: Gerichteter Graph G = (V,E) + Quelle s Î V.
Ausgabe: nicht nur minimales Gewicht, sondern auch Pfad
Þ Baum k"urzester Pfade bei gegebenem Startknoten s:¹⁸ G' = (V', E') mit:
- V' Í V: Menge der von s aus erreichbaren Knoten
- G': bewurzelter Baum mit Wurzel s
- der (eindeutige, einfache) Pfad von s nach v in V' ist ein k"urzester Pfad von s nach v in G.
Repr"asentierung: Im Lauf des Graphtraversierung: merke den Vorg"anger p f"ur jeden Knoten Þ G_p = (V_p, E_p).¹⁹
Problem: Kanten mit negativen Kosten, insbesondere Zyklen mit negativen Kosten.

K"urzeste Pfade (2)

Hauptidee: Der k"urzeste Pfad zwischen zwei Knoten
enth"alt k"urzeste Pfade als Teile

Þ gutartiges Problem, viele Techniken anwendbar
- greedy
- Relaxation
- dynamische Programmierung....

Lemma 7 geg G = (V, E), gerichtet, gewichtet mit w: E ® R. (v₁,..., v_n) ist ein k"urzester Pfad von v₁ nach v_n und w = (v_i,..., v_j) mit 1£ i £ j £ n ein Teilpfad. Dann ist w ein k"urzester Pfad von v_i nach v_j.

Þ Zerlegung: Sei s v k"urzester Pfad mit s u v, dann d(s,v) = d(s,u) + w(u,v).
"`Dreiecksungleichung"'
- d(s,v) £ d(s,u) + w(u,v) (mit (u,v) Î E)
- d(s,v) £ d(s,u) + d(u,v)

Relaxation

Methode zur Optimierung bei gutartigen Probleme
pessimistische (worst-case) Absch"atzungen
im Laufe des Algos immer weiter verbessert
gutartig: ``monoton'', neue Information verbessern die Sch"atzung nur
f"ur k"urzeste Pfade: f"ur alle v Î V: d(v) als obere Schranke f"ur den Pfad von s nach v.

generische Relaxation

generischer Relaxationsalgorithmus
- Initialisierung: f"ur all v Î V:
  - d(v) = ¥ (au"ser s)
  - d(s) = 0
  - p(V) = ^
- Relaxierung einer Kante: Anwendung der Dreiecksungleichung: [mathescape=true,tabsize=2] Relax(v₁, v₂) = if d(v₂) > d(v₁) + w(v₁,v₂) then p(v₂) := v₁; d(v₂) := d(v₁) + w(v₁,v₂) fi <\code>
Unterschiedliche Algorithmen, je nachdem wann und wieoft Kanten relaxiert werden.




  Dijkstra
 






 Voraussetzung:  nicht-negative Gewichtung

  S: Menge von Knoten, deren min. Gewicht bereits
 bestimmt ist: d.h.  v Î S Þd(v) = d(s,v)

  Hauptschritt: 
 
 Nimm den Knoten u mit der momentan  geringsten
 Pfadabsch"atzung aus V-S,  relaxiere alle an u
 adjazierenden Knoten und  stecke u nach S.
 

Þ Hilfsstruktur:  Priority Queue
 

 Greedy-strategie: relaxiere immer eine Kante zu dem
 unbehandelten Knoten mit dem  geringsten Absch"atzung des
 Abstandes.

 Graphsuche, gesteuert nach den besten Absch"atzungen, "Ahnlich
  Breitensuche

 Laufzeitkomplexit"at: 
 

  Jeder  Knoten einmal aus der Queue genommen:
 O(V²)²⁰
 
 jede  Kante genau einmal relaxiert: O(E)
 
Þ O(V² + E) = O(V²).
 



  Dijkstra (2)
 





 

 
Dijkstra(G,w,s)
  Intitialise(G,s);       // siehe generischer Algo.
  S := $\emptyset$;                 // Knoten mit bekannter Distanz 
  Q := V;                 // priority queue               

  while $Q \not= \emptyset$
  do
    u := extract-min(Q); 
    S := $S \cup \{u\}$;
    for all vertices $v  \in Adj(u)$
    do
        relax(u,v)
    done
  done
  
 






  Bellmann-Ford
 


  beliebige Kantengewichtung, entdeckt
  negativ-gewichtete Zyklen

 Relaxation der Absch"atzung des Abstandes. 

 Laufzeitkomplexit"at: O(V E).

 Relaxation aller Kanten,  ohne Ber"ucksichtigung ihres
 Gewichtes, daf"ur gen"ugend oft (d.h.  keine
 greedy Strategie



  Bellmann-Ford (2)
 










 

 
Bellmann-Ford(G,w,s)              // G = (V,E), Gewichtung w

  initialize(G,s);                // s. generischer Algo.
  for i := 1 to size(V)-1
  do
    for all edges $(u,v) \in  E$
    do 
      relax(u,v) 
    done
  done;
  for all edges $(u,v) \in E$     // Test auf negative Zyklen
  do
    if d(v) > d(u) + w(u,v) 
       then return false
       else return true
  done;

 











  Lineare Programmierung
 






 spezielles Optimierungsproblem

  Gegeben: 
 

  lineare  Zielfunktion +
 
 Menge von linearen  Ungleichungen (constraints)
 

  Gesucht: Eingabe, soda"s  Zielfunktion mit
  optimaler/minimaler Wert.

 genauer:
 

  gegeben
 

  A x £ b
 
 f(x₁... x_n) = å_i=1ⁿ c₁ x_i
 
 
 gesucht: minimiere f(x₁... x_n)
 

 ber"uhmtes L"osungsverfahren: Simplex-Verfahren (und
 andere)

 Eingeschr"ankt hier: Differenzenungleichungen, d.h.
 Ungleichungen der Form:²¹ 
 
 x_i - x_j < b_k
 



  Darstellung als Graphproblem
 






 Gegeben:  Differenzenungleichungen: A x £ b.

 Definiere Constraintgraph G = (V,E) mit
 

  V = {v₁,... v_n} (ein Extraknoten v₀!)
 
 E = {(v_i, v_j)| x_j - x_i £ b_k} È {(v₁,v₁),
 (v₀,v_n)}. Die Gewichte W(v_i, v_j) = b_k (i,j ¹0) und die
 Gewichte der von v₀ ausgehenden Kanten =0.
 






References


[AHU89]

Alfred Aho, John E. Hopcroft, and Jeffrey Ullman.
The Design and Analysis of Computer Algorithms.
Addison-Wesley, 1989.




[AVL62]

G. M. Adel'son-Vel'skivi and E. M. Landis.
An algorithm for the organization of information.
Soviet Mathematics Doklady, 3:1259--1263, 1962.




[Bay72]

R. Bayer.
Symmetric binary B-trees: Data structure and maintenance
 algorithms.
Acta Informatica, 1:290--306, 1972.




[CLR90]

Thomas H. Cormen, Charles E. Leierson, and Ronald L. Rivest.
An Introduction to Algorithms.
MIT Press, 1990.




[Heu97]

Volker Heun.
Grundlegende Algorithmen.
Vorlesungsskript TU München, October 1997.




[HJ89]

C. A. R. Hoare and Cliff B. Jones, editors.
Essays in Computing Science.
International Series in Computer Science. Prentice Hall, 1989.




[Hoa62]

C. A. R. Hoare.
Quicksort.
BCS Computer Journal, 5(1):10--15, 1962.
Reprinted in [HJ89].




[Knu73a]

Donald Knuth.
Fundamental Algorithms, volume 1 of The Art of Computer
 Programming.
Addison-Wesley, Reading, Massachusetts, 1973.




[Knu73b]

Donald Knuth.
Sorting and Searching, volume 3 of The Art of Computer
 Programming.
Addison-Wesley, Reading, Massachusetts, 1973.




[Moo59]

Edward F. Moore.
The shortest path through a maze.
In Proceedings of the International Symposium on the Theory of
 Switching, pages 285--292. Harvard University Press, 1959.




[Pap94]

Christos H. Papadimitriou.
Computational Complexity.
Addison-Wesley, 1994.




[Ski97]

Steven S. Skiena.
The Algorithm Design Manual.
Springer, Telos, 1997.




[Tar72]

Robert Tarjan.
Depth-first search and linear graph algorithms.
SIAM Journal on Computing, 1(2):146--160, June 1972.




[Wil64]

J. W. J. Williams.
Heapsort (Algorithm 232).
Communications of the ACM, 7(6):347--348, 1964.



1
 eventuell leer

2
 ('a Btree = Leaf | Node of ('a Btree
 * 'a * 'a Btree)

3
 Länge des
 Arrays l = 2ⁿ -1 mit 2ⁿ - 1 ³ heapsize für minimales
 n.

4
 es gibt daneben
 Durchlaufen in Präordnung und Postordnung.

5
 Wenn die Schlüssel alle
 unterschiedlich sind, gilt für die beiden ersten Ungleichungen
 schärfer < anstelle £. Die erste Ungleichung gilt nur
 falls das linke Kind existiert.

6
  einfacher Pfad: alle Knoten (des Pfades)
 unterschiedlich. Falls die Pfade nur von der Eltern zu den Kindern
 erlaubt sind, sind alle Pfade einfach!

7
 = Länge des kürzesten Pfades von s zum Knoten,
 falls unerreichbar, Abstand = ¥.

8
 Daß man 2 Farben braucht, sollte klar sein, die
 dritte kennzeichnet Knoten die man bereits entdeckt hat, deren
 adjazierene Knoten man aber noch nicht kennt. Wg. Breitenstrategie
 arbeitet man die Nachbarn eines neuentdeckten Knotens nicht sofort ab.
 Das sind die grauen Knoten.

9
 graue Knoten: auf der ``Grenze'' der Breitensuche:
 ein schwarzer Knoten kann nie einem weißen benachbart sein.

10
 Queue-Operationen enqueue und
 dequeue kosten O(1), siehe
 Kapitel 5.

11
 der vorgestellte
 Algorithmus wendet dies auf alle Knoten der Reihe nach an, das ist aber
 nicht zentral. Die eigentliche Tiefensuche ist DFS-Visit.

12
 Ein
 weißer Pfad ist ein Pfad, der nur weiße Knoten enthält.

13
 Sei G = (V, E) gegeben, dann ist G^t = (V, E^t)
 wobei (v, u) Î E^t, gdw. (u,v) Î E. Die starken
 Zusammenhangskomponenten von G und G^t  stimmen
 überein.

14
 jeder von jedem
 erreichbar. Zum Vergleich mit den starken Zusammenhangskomponenten: der
 Graph ist hier ungerichtet!

15
 Es kann natürlich
 mehrere leichte/minimale Kanten geben.

16
 unter der
 Voraussetzung, daß a(E,V) = O(log E), z.B.,
 heap-Implementierung.

17
 genauer: alle
 anderen Bäume des Waldes sind nur Einzelknoten.

18
 es kann mehrere B"aume mit
 k"urzesten Pfaden geben. In der Regel will man einen davon.

19
 Vergleiche Breitensuche und
 Vorg"angergraph. Der  Vorg"angergraph des
 Breitensuchalgorithmus entspricht f"ur den Spezialfall, da"s alle
 Kanten das  Gewicht 1 haben, den  Baum der
 k"urzesten Pfade.

20
 extrahieren kostet O(V) (z.B. 
 Arrayimplementierung), wenn man nicht noch Zusatzannahmen macht.

21
 jede Reihe der Matrix enth"alt eine 1
 und eine -1 und ansonsten nur 0.



January 23, 2001



This document was translated from L^AT_EX by
H^EV^EA.

Verfahren	T_min	T_max	T_av
Auswahl	O(n²)	O(n²)	O(n²)
Einfügen	O(n)	O(n²)	O(n²)
Bubblesort	O(n)	O(n²)	O(n²)
Mischen	O(n log n)	O(n log n)	O(nlog n)
direktes Mischen	O(n log n)	O(n log n)	O(nlog n)
natürliches Mischen	O(n)	O(n log n)	O(nlog n)
Quicksort	O(nlog n)	O(n²)	O(nlog n)
Heapsort	O(n log n)

Divisionsmethode	h(k) = k mod m
Multiplikationsmethode	h(k) = ë m(k A - ë k A û) û (mit 0<A<1)
Universal hashing	``zufällige'' Auswahl von h

Initialisierung	O(V)
Sortieren	O(Elog(E))
innere Schleife	O(E)
Datenrepräsentierung	a(E,V).

Algorithmen & DatenstrukturenWintersemester 2000/2001

Martin Steffen

1 Einleitung

2 Sortieren

3 Lineares Sortieren

4 Analyse

5 Elementare Datenstrukturen

6 Hashstrukturen

7 Binäre Bäume

8 Rot-schwarz-Bäume

9 Graphen

10 Spannbäume

11 K"urzeste Pfade

References

Algorithmen & Datenstrukturen
Wintersemester 2000/2001