Petras/Translating Dialects in Search...

Petras, V.: Translating Dialects in Search: Mapping between Specialized Languages of Discourse and Documentary Languages. Dissertation at Graduate Division of the University of California, Berkeley (2006)
http://www.sims.berkeley.edu/~vivienp/diss/

Der Referent darf und will nicht verschweigen, dass die Autorin einst studentische Hilfskraft bei ihm war und schon in dieser Zeit mit M. Bank eine durchaus bemerkenswerte Korrektur[1] der bekannten Arbeit von Giles und Lawrence (in Science, April 1998) publiziert hat.

INSPEC hat eigentlich keinen Thesaurus sondern eher eine Klassifikation.[2] Die „Deskriptoren“ sind in ihrer Begrifflichkeit zu breit für einen typischen Thesaurus, so dass im Durchschnitt auch nur 7 „Deskriptoren" vergeben werden (S.130 bzw. 230).[3] Bei 450.000 Records/J ist das nicht viel. Daran erkennt man, dass die Indexierungsbreite und die Indexierungsspezifität in der Weise miteinander korrespondieren, dass mit wachsender begrifflicher Breite der Deskriptoren bzw. der Klassen die Indexierungsbreite zwangsläufig abnehmen muss.[4] Je größer die Zahl der Dokumente ist, um so höher muss auch die Indexierungsbreite sein. Darin liegt ja der eigentliche Grund für das Entstehen der Dokumentation im letzten Jahrhundert. Wenn beispielsweise 427.340 Records durch 8.447 verschiedene INSPEC Deskriptoren erschlossen werden (S.129), erbringt jeder dieser Deskriptoren durchschnittlich 50 Treffer. Bei 7 Deskriptoren/Record sind es Ø 350 Hits.

Interessant sind auch die VENN-Diagramme (S. 137, 138, 142, 143, 186), da man auf sie einen einfachen wahrscheinlichkeitstheoretischen Test anwenden kann,[5] der z.B. deutlich zeigt, dass in der Physikdatenbank INSPEC, Worte wie Computers und Physics in der natürlichen Sprache der Dokumente deutlich seltener als bei einer Zufallsverteilung gemeinsam vorkommen,



Physics = 0,33 + 0,04 + 0,20 + 0,13 = 0,70
Computers = 0,13 + 0,04 + 0,20 + 0,13 = 0,50
Physics ∩ Computers = 0,04 + 0,20 = 0,24
0,70 x 0,50 / 0,24 = 1,46

während die Indexer diese scheinbare Zufälligkeit wieder herstellen.

Physics = 0,09 + 0,02 + 0,62 + 0,15 = 0,88
Computers = 0,01 + 0,02 + 0,62 + 0,08 = 0,73
Physics ∩ Computers = 0,02 + 0,62 = 0,64
0,88 x 0,73 / 0,64 = 1,00

Im Prinzip geht es bei der Arbeit um den Einsatz von „search term recommenders“ und das Verhältnis der Recall Ratio zur Precision. Dabei zeigt sich, dass die alte Erkenntnis von F. Lancaster (vor ~40 Jahren an MEDLARS gewonnen) bis heute noch sehr stabil ist, bei der sich das Verhältnis zwischen Precision und Recall als etwa linear erweist. Im Bereich von 20% - 60% Recall Ratio beträgt die Steigung meist etwas weniger als -1. Mit zunehmendem Recall fällt somit die Precision direkt proportional. Dieser Umstand ist insofern besonders bemerkenswert, weil er in erster Näherung besagt, dass professionelle Rechercheure seit Jahrzehnten das Optimum anstreben, bei dem etwa 50% Recall auch 50% Precision gegenüberstehen. Auch bei Volltextrecherchen hat sich daran kaum etwas geändert, obwohl die Recall Ratio dort nicht selten auf siebzig oder achtzig Prozent erhöht werden kann. Dabei fällt aber die Precision oft auf störend kleine Werte ab, wenn man nicht sehr lang und intensive recherchiert.

Nach Jahrzehnten Erfahrung (von den Cranfield Studies vor vierzig Jahren bis heute) lässt sich erkennen, dass das Verhältnis von Recall und Precision weniger ein Zeichen für die Güte einer Datenbank ist, als vielmehr ein Optimum das Rechercheure grundsätzlich anstreben. Sie wissen, dass sie sich dann etwa im Optimum befinden, wenn jedes zweite Dokument das sie in der Recherche herausfiltern relevant ist, und wenn sie feststellen, dass sie etwa jedes zweite Dokument das auf dem recherchierten Gebiet relevant ist, gefunden haben. Dieses Optimum ließ sich bei MEDLARS erfahrungsgemäß annähernd erreichen, unterliegt aber selbstverständlich erheblichen Streuungen. Wiederholte Vergleiche haben gezeigt, dass die Recall Ratio einer Datenbank um 40% pendelt. Durch einen guten Thesaurus verbessert sich dieser Wert bemerkenswerter Weise nicht. Er verringern lediglich die Schwankungen. Dies wird durch das oben erwähnte Ergebnis neu belegt.

In den Grafiken der vorliegenden Arbeit liegen die Recall-Werte bei einer Precision von rund 50% meist erheblich unter 40%. Bei INSPEC (S.157) beispielsweise sogar weit unter 10%, da erhöhte Recall Ratios nur bei entsprechend hoher Indexierungsbreite (im Extremfall beim Volltext) erreichbar sind. Die Ergebnisse zeigen daher auch, dass es die Aufgabe eines search term recommenders sein muss, stärker auf die Precision als auf die Recall Ratio zu achten, da Endnutzer ein System eher als positiv bewerten, das ihnen von 100 Treffern 50 Relevante erbringt, als solche, die von 100 Treffern nur einen relevanten bzw. alle hundert relevante herausfiltern. Im letzten Fall hätte man zwar als Endnutzer das Gefühl sehr viel relevante Information bekommen zu haben, wüsste aber nicht, wie viel weitere Treffer möglich gewesen wären, da das Umfeld (mit ähnlichen aber nichtrelevanten Treffern) zum Vergleich fehlt.

Der Einsatz eines leistungsfähigen search term recommenders zeigt sehr schön, dass auch er mit wachsender Leistungsfähigkeit das Verhältnis zwischen Precision und Recall gegen -1 führt, wobei der Schnittpunkt mit der y-Achse (Precision) möglichst hoch sein sollte. Eine geringere Steigung würde zwar bei leichtem Precision-Verlust zu rascherem Anstieg der Recall Ratio führen, aber dies auf niedrigem Niveau (S.237).

(W. Umstätter)

[1] Petras, V. und Bank, M.: Vergleich der Suchmaschinen AltaVista und HotBot bezüglich Treffermengen und Aktualität. nfd 98 (6) (1998)
[2] http://www.ib.hu-berlin.de/~wumsta/pub35.html
[3] 50% der Dokumente haben nur 2-6 Deskriptoren
[4] http://www.ib.hu-berlin.de/~wumsta/pub65.html
[5] Umstätter, W. und Rehm, M.: Einführung in die Literaturdokumentation und Informationsvermittlung. Saur. Verl. München S.8-10 (1981) http://www.ib.hu-berlin.de/~wumsta/infopub/textbook/definitions/d43.html

Trackbacks

    Keine Trackbacks

Kommentare

Ansicht der Kommentare: (Linear | Verschachtelt)

  1. Vivien Petras schreibt:

    Zum Referat „W. Umstätter“ (Petras, V.: Translating Dialects in Search: Mapping between Specialized Languages of Discourse and Documentary Languages. Dissertation at Graduate Division of the University of California, Berkeley (2006) http://www.sims.berkeley.edu/~vivienp/diss/

    Eine kurze Zusammenfassung der Dissertation kann man im Abstrakt lesen: http://www.sims.berkeley.edu/~vivienp/diss/vpetras-abstract-dissertation.pdf

    Zu den Venn-Diagrammen möchte ich betonen, dass sie nicht die Verteilung der Worte "Physics", "Computers" und "Electrical Engineering" in den Inspec Dokumenttiteln und Deskriptoren aufzeigen, sondern die Verteilung sämtlicher Worte in diesen Teilbereichen präsentieren. D.h. Figur 1 zeigt die Verteilung sämtlicher Titelworte (minus Stopworte) in den 3 Teilbereichen Physik, Elektrotechnik und Informatik (in Inspec wurden die Teilbereiche durch den Klassifikationscode definiert, d.h. Dokumente mit Klassifikationsnummern im A-Bereich wurden in Physik eingegliedert, Dokumente mit B-Klassifikationsnummern in Elektrotechnik usw.). Abzüglich der Stopworte waren in der Gesamtmenge der 3 Teilbereiche 60.601 Worte, deren Verteilung Figur 1 aufzeigt. D.h. im Teilbereich Physik waren 33% dieser Worte aufzufinden (und nur dort), während 4% der Worte sowohl in Physik als auch in Informatik auftraten. 20% der Worte fanden sich in allen 3 Teilbereichen. Figur 2 zeigt korrespondierend die Verteilung der Schlagwörter (Inspec Thesaurus Deskriptoren) in diesen 3 Teilbereichen auf (aus einer Gesamtmenge von 8.447 Schlagwörtern).

    Das Ziel dieser Analyse bestand darin zu zeigen, dass diese verschiedenen Fachgebiete durchaus unterschiedliche Vokabularien haben und sich nicht zum großen Teil überlappen. Nur wenn verschiedene Fachgebiete auch verschiedene technische Fachsprachen haben, macht es Sinn für den Search Term Recommender, unterschiedliche Deskriptoren in den einzelnen Fachgebieten vorzuschlagen. Umstätters Berechnung bestätigt, dass Worte in Physik und Informatik weniger als zufällig in beiden Bereichen vorkommen.

    In den Recall/Precision Analysen in den automatischen Klassifikationsexperimenten (Inspec Deskriptoren wurden vom Search Term Recommender für Inspec Dokumenttitel vorgeschlagen) wurde besonders die Precision an verschiedenen „cut-off levels“ (Nummer der vorgeschlagenen Deskriptoren) betont. Wenn der Search Term Recommender bedingt durch einen cut-off level von 3 nur 3 Deskriptoren für ein Dokument vorschlägt, das ursprüngliche Dokument aber 6 Deskriptoren hat, dann kann der Recall Wert nie höher als 50% sein (weil nur maximal 3 von 6 "relevanten" Deskriptoren vorgeschlagen werden können). Die Precision kann allerdings zwischen 0% (keiner der 3 vorgeschlagen Deskriptoren für ein Dokument war ein ursprünglicher Deskriptor), 33%, 66% und 100% (alle 3 vorgeschlagenen Deskriptoren waren auch im Dokument als Deskriptor indiziert) betragen. Deshalb wurde in diesem Fall mehr Wert auf hohe Precision Werte gelegt.

    Für die weitere Analyse wurde auch der sogenannte Orakel-Recall/Precision Wert berechnet, um den Einfluss der cut-off levels auf den Recall Wert zu verringern. Dafür wurde der cut-off level immer der ursprünglichen Deskriptorenanzahl gleichgesetzt, so dass auch ein maximaler Recall Wert erreicht werden konnte. An diesem cut-off level sind die Recall und Precision Werte dieselben, weil der Anteil der korrekt vorgeschlagenen Deskriptoren in der Resultatsmenge (Precision) gleich dem Anteil der korrekt vorgeschlagen Deskriptoren aus der ursprünglichen Menge (Recall) ist (da Resultatsmenge = ursprüngliche Deskriptorenmenge).

    In allen Evaluationen und Experimenten geht es hauptsächlich darum zu zeigen, dass Specialty Search Term Recommenders, die Deskriptoren für Teilfachbereiche vorschlagen (und auf die technische Fachsprache des Bereiches trainiert sind), besser sind als generelle Search Term Recommender, die sich auf die gesamte Datenbank beziehen und damit die einzelnen Fachbereiche nicht berücksichtigen. Mit "besser" ist hier im speziellen gemeint, dass Specialty Search Term Recommender gezielter und öfter die korrekten Deskriptoren für Dokumente in den einzelnen Fachbereichen vorschlagen.

    Dies konnte gezeigt werden, indem die Recall/Precision Funktion für die Specialty Search Term Recommender sich immer oberhalb und rechts von der generellen Search Term Recommender Funktion befindet, was bedeutet, dass für jeden Datenpunkt (d.h. cut-off level oder vorgeschlagener Deskriptor) Recall und Precision höher sind. Die Verbesserung (verglichen zum allgemeinen Search Term Recommender) in diesen automatischen Klassifikationsexperimenten liegt bei 10% für die Inspec-Datenbank und 25% für die Ohsumed Testdatenbank.


Kommentar schreiben


Umschließende Sterne heben ein Wort hervor (*wort*), per _wort_ kann ein Wort unterstrichen werden.
Standard-Text Smilies wie :-) und ;-) werden zu Bildern konvertiert.

Um maschinelle und automatische Übertragung von Spamkommentaren zu verhinden, bitte die Zeichenfolge im dargestellten Bild in der Eingabemaske eintragen. Nur wenn die Zeichenfolge richtig eingegeben wurde, kann der Kommentar angenommen werden. Bitte beachten Sie, dass Ihr Browser Cookies unterstützen muss um dieses Verfahren anzuwenden.
CAPTCHA

 
Kommentare werden erst nach redaktioneller Prüfung freigeschaltet.