Die DIN 31 623, Teil 1, Abschnitt 5 definiert Bewertungskriterien für Indexierungsergebnisse so (Zitate aus der Norm):

Indexierungsbreite Indexierungsspezifität

Die Indexierungsbreite gibt bezogen auf den fachlichen Inhalt eines Dokuments den Grad der Erschließung an; sie kommt in erster Annäherung in der Anzahl der vergebenen Deskriptoren oder Notationen zum Ausdruck.

Die Indexierungsspezifität gibt an, wie allgemein oder wie spezifisch die vergebenen Deskriptoren oder Notationen bezogen auf den Dokumenteninhalt sind; sie kommt in erster Annäherung durch das hierarchische Niveau der Indexierungsbezeichnungen zum Ausdruck.

Indexierungstiefe Indexierungskonsistenz

Indexierungstiefe ist eine Kombination von Indexierungsbreite und -spezifität und gibt die Genauigkeit der Wiedergabe des Dokumenteninhalts durch das Indexierungsergebnis an. Sie kommt in erster Annäherung durch die Anzahl der vergebenen Deskriptoren oder Notationen unter Berücksichtigung ihres hierarchischen Niveaus zum Ausdruck. Dies bedeutet, dass im konkreten Fall von zwei Indexierungsergebnissen des gleichen Dokuments mit gleicher Anzahl von Deskriptoren oder Notationen dasjenige tiefer ist, das die spezifischeren Bezeichnungen enthält.

Indexierungskonsistenz ist das Maß der Übereinstimmung verschiedener Indexierungsergebnisse des gleichen Dokuments in derselben Dokumentationssprache. Sie kommt in erster Annäherung zum Ausdruck durch das Verhältnis der gemeinsam vergebenen Deskriptoren oder Notationen zur Gesamtzahl aller vergebenen Indexierungsbezeichnungen.

Ein weiteres Bewertungskriterium, das die Norm nicht erwähnt, ist Zielgruppenorientierung: Zielgruppenorientierung bedeutet: Indexieren aus der Perspektive und für die Bedürfnisse einer bestimmten Nutzergruppe.


Berechnung von Recall und Präzision beim Information Retrieval

Die Qualität von Indexierungsergebnissen beeinflusst die Qualität der Informationswiedergewinnung. Dabei werden drei Größen unterschieden:

Zur Berechnung von Recall und Präzision werden 3 Werte herangezogen:

A = Anzahl der relevanten Datensätze, die bei einer Recherche auch gefunden wurden
B = Anzahl der nicht relevanten Datensätze, die trotzdem bei einer Recherche gefunden wurden
C = Anzahl der relevanten Datensätze, die aber nicht gefunden wurden

Berechnung der Trefferquote (Recall)

Anteil der gefundenen Datensätze in Relation zu allen Datensätzen, d.h. wieviel % von den Datensätzen, die hätten gefunden werden müssen, wurden überhaupt gefunden?

Formel zur Berechnung von Recall
Die Formel für die Berechnung von Recall ohne Prozentangabe ist entsprechend:
r = A / (A + C)

Berechnung der Präzision (Precision)

Anteil der gefundenen relevanten Datensätze in Relation zu allen Datensätzen, die gefunden wurden in %, d.h. wieviel von den gefundenen Datensätzen sind überhaupt nützlich?
p = Berechnung von Präzision

Formel zur Berechnung von Präzision
Die Formel für die Berechnung von Präzision ohne Prozentangabe ist entsprechend:
p = A / (A + B)

Beide Werte liegen also immer zwischen 0 und 100% bzw. zwischen 0 und 1:

Verteilung von Recall/Präzision bei guter IndexierungsqualitätVerteilung von Recall/Präzision bei schlechter Indexierungsqualität

Berechnung des Einheitsmaßes

Recall und Präzision können zu einem Einheitsmaß kombiniert werden: e = 1 - (r x p). Je näher dieser Wert an 0 liegt, desto näher kommt er dem Ideal einer 100-prozentigen Recallrate bei gleichzeitig 100-prozentiger Präzisionsrate.

Bei dem Einheitsmaß kann man zusätzlich entweder dem Kriterium Recall oder dem Kriterium Präzision durch den Gewichtungsfaktor beta ein höheres Gewicht einräumen. Setzt man z.B. beta = 2, legt man ein doppelt so großes Gewicht auf den Recall. Setzt man beta = 0.5, legt man ein doppeltes Gewicht auf die Präzision im Information Retrieval.

e liegt hier auch zwischen 0 und 1. e = 0 ist der angestrebte Idealwert, nach dem alle relevanten und nur die relevanten Datensätze wiedergewonnen wurden. e = 1 bedeutet: Kein einziger relevanter Datensatz wurde gefunden.

Formel zur Berechnung des Einheitsmaßes

b = Gewichtungsfaktor
r = Recall (nicht in %)
p = Präzision (nicht in %)

Quelle: Vereinfacht nach Grummann, S. 301

Statistische Kriterien für Information Retrieval wie die oben eingeführten spielen bei der Evaluation von Text-Retrieval-Systemen eine Rolle. Ein Beispiel sind die internationalen TREC-Workshops, auf denen Retrieval-Programme an Testtextsammlungen miteinander verglichen werden können.

Stand: 27. Januar 2013

< Seite drucken >
< Zum Seitenanfang >

STEP 1

Einführung

STEP 2

Initialaufgabe

STEP 4

Übung 1

STEP 5

Übung 2
Step 1
Step 2
Step 3
Step 4
Step 5
Lektüre: Bewertungskriterien für Indexierungsergebnisse

LE 01: Indexierungsqualität