CIS/Wintersemester 2000/2001
Proseminar: Morphologie und Lexikographie
Dozent: Dr. Daniel Schnorbusch
Referenten: Manuel Dornbusch, Wolfgang Mederle, Alexander Schädle, Johannes Stiehler
29.01.2001
Überarbeitete und erweiterte Version Sommersemester 2001
Proseminar: Semantik
Dozenten: Prof. Franz Guenthner, Stefan Ulrich
Referenten: Manuel Dornbusch, Wolfgang Mederle, Alexander Schädle, Johannes Stiehler
22.05.2001
Wordnet ist eine lexikalische Datenbank für die englische Sprache, die online abgefragt werden kann. Entwickelt und vervollständigt wird es am Cognitive Science Laboratory der Princeton University, New Jersey, USA, seit 1985. Ähnliche Datenbanken wurden seitdem in verschiedenen Ländern aufgebaut. Die deutsche Version, das GermaNet, liegt auf den Servern der Uni Tübingen und ist, im Gegensatz zum Wordnet, kostenpflichtig.
Die Struktur der Datenbank und die Beziehungen zwischen den einzelnen Datensätzen berücksichtigen aktuelle psycholinguistische Erkenntnisse über das lexikalische Gedächtnis. Die Hauptwortarten Nomina, Adjektive, Adverben und Verben sind in Synonym-Felder unterteilt, von denen jedes ein lexikalisches Konzept repräsentiert.
Wordnet wurde auf der Basis dreier grundlegender Hypothesen gestaltet:
Mit dem Anwachsen der Datenbank wurde schnell offensichtlich, daß man sich gründliche Gedanken über die Struktur machen müßte, wollte man nicht im Chaos enden. Erster Schritt war die Aufteilung der Datei in kleinere Einheiten, wobei man nach syntaktischen Kritereien filterte: je eine Datei für Nomina, Verben und Adjektive (Adverben wurden erst 1992 hinzugefügt).
Doch auch das wurde bald vor allem bei der mächtigsten Wortart, den Nomina unbeherrschbar. Ausweg war eine ontologische Kategorisierung der Nomina. Ontologie ist die Lehre vom Sein an sich, und was gemacht wurde, war folgendes: Man nahm eine Anzahl von Adjektiv-Gegensatzpaaren und betrachtete, welchen Arten von Nomina diese korrekt beigeordnet werden konnten. Das Ergebnis waren 25 Klassen von Nomina, die nun einfacher zu handhaben waren. Die Verben wurden auf ähnliche Art und Weise aufgeteilt, nur die Adjektive blieben unsortiert.
Die Basiseinheit in Wordnet ist das Wort. Anders als in den meisten Lexika gesellen sich zum Wort auch noch kurze Phrasen, die eine semantische Einheit bilden. Solche Gebilde sind im Deutschen wesentlich seltener, da man sie dort in der Regel zu einem neuen Wort zusammensetzen kann, z. B. Motorblock versus engine block.
Hauptverknüpfung zwischen den Worteinheiten sind die synsets (Synonym-Datensätze). Wörter sind also mit ihren Synonymen verknüpft. Die Basisstruktur ähnelt der eines stark erweiterten Thesaurus. Zusätzlich dazu gibt es Erklärungen und Beispiele zu den Synsets, die es erlauben, Wordnet als Wörterbuch zu nutzen.
Erforderlichkeit bedeutet, daß der Sinn eines Verbs notwendigerweise den Sinn eines anderen enthält, also eine Wenn-Dann-Relation. Beispiel: Das Verb schnarchen enthält die Information des Verbs schlafen. Wer nicht schläft, schnarcht nicht. Existiert diese Beziehung auch in umgekehrter Richtung, handelt es sich um Synonyme.
Direkte Hyponymie wie bei Nomina ist bei Verben schwer festzustellen. Während man bei Nomina sagen kann: Eine Katze ist ein Säugetier, ist eine solche Feststellung bei Verben nicht möglich, ohne sie vorher zu nominalisieren. Der Ausweg, der für Wordnet benutzt wurde, ist die Troponymie, die durch die Aussage: Zu V1 bedeutet, auf eine bestimmte Art und Weise zu V2.
Hauptproblem bei Verben mit gegenteiliger Bedeutung ist die häufig starke Bindung der Opponenten, die die Verwendung von Synonymen als Ersatz im Zusammenhang verbietet. Während geben in etwa synonym ist zu überreichen, gehört geben fest zu nehmen als Gegenspieler.
Obwohl gegenteilige Bedeutung, gibt es Antonyme, die die gleichen Troponyme haben. Vergessen und erinnern teilen sich das Troponym erfahren. Interessant sind auch die Fälle, in denen Antonym gleichzeitig erforderliche Über-Bedingung (Entailment, s.o.) ist: Um etwas öffnen zu können, muß es vorher geschlossen worden sein.
Diese bestehen zwischen Verben, die eine Ursache, und solchen, die eine Wirkung angeben, z. B. geben und haben.
Bestimmte Verben schränken ihre Bedeutungsvarianz in bestimmten Zusammenhängen selbst ein, da eine implizite (oder von einem dazugedachten Adverb bestimmte) Bedeutung überwiegt: Er trinkt wieder impliziert, daß trinken in der Bedeutung Alkohol trinken gebraucht wird.
Wordnet repräsentiert nur einen Ansatz, ein Lexikon zu entwerfen. Es gibt viele weitere Ansätze, und einige davon könnten auf Wordnet angewendet werden, ohne die vorhandene Struktur zu beeinträchtigen.
In semantische Felder aufgeteilte Lexika weisen gewissen Ähnlichkeiten mit der Wortbereichsstruktur in Wordnet auf. Eine semantische Feldanalyse fußt auf der Annahme, daß Wortbedeutungen sich aus Ähnlichkeits-und Kontrastrelationen zu den anderen Wörtern im Feld ergeben. Anders als bei darauf aufgebauten Lexika, die dafür paradigmatische und syntagmatische Angaben verwenden, sind in Wordnet die Informationen, wie ein Wort verwendet wird, in den Beispielen, die den Synsets angefügt sind, enthalten.
Einige Lexikographen schlagen eine Kategorisierung nach Themenbereichen vor. Die kognitiven Strukturen für diese wären als Vorwissen vorausgesetzt. Ein Rahmenbereich könnte etwa Geldgeschäfte sein, mit den Kategorien Geld, Käufer, Verkäufer, Güter und den zugehörigen Verben kaufen, verkaufen, verlangen, kosten etc. Aus solchen Strukturen könnten auf elegante Weise die zum Themengebiet passenden Sätze bzw. syntaktischen Strukturen gebildet werden. In Wordnet sind Verben nicht mit spezifischen Nomina verknüpft, wohl aber mit syntaktischen Rahmen und einer Angabe der Themenbereiche, unter die das Verb eingeordnet werden kann. Allerdings gibt es keine Einteilung in semantische Kategorien wie Käufer.
Es gibt Versuche, den semantischen Gehalt aller Wörter auf wenige atomare Grundkomponenten zu reduzieren. Aktuelle Bestrebungen legen die lexikal-konzeptuelle Struktur (engl. Abk. LCS) zugrunde, die konzeptuelle Kategorien wie Weg, Art, Ort, sowie atomare Verben wie werden, tun, machen verwendet. Ein Verb wie verlieren würde so als ein Besitztum, das einen abstrakten Weg nimmt (nämlich weg vom Besitzer), beschrieben. Obwohl gewisse Überlappungen in der Struktur da sind, wäre eine solche Betrachtungsweise aus dem Datenbestand von Wordnet nur schwer abzuleiten.
Manche Verben könnte man als semantisch aus anderen Verben abgeleitet bezeichnen, indem man ihre kontextspezifische Bedeutung so umschreibt, daß sie nicht mehr das Hauptverb darstellen. Er bürstete den Schmutz aus könnte beispielsweise umschrieben werden mit Er entfernte durch Bürsten den Schmutz. Solche Zusammenhänge werden in Wordnet durch die unterschiedenen Bedeutungen der polysemischen Verben dargestellt.
Man kann feststellen, daß Verben, die semantische Gemeinsamkeiten aufweisen, häufig ähnlichen syntaktischen Regeln gehorchen. Die Verbkategorien, die in Wordnet vorliegen, ähneln stark jenen, die andere aufgrund syntaktischer Analyse entwickelt haben.
Wer einen Kommentar zu dieser Seite abgeben möchte, einen Fehler gefunden oder einfach nur eine Frage hat, kann dieses Mitteilungsformular benutzen.
Quellen
[1] Agricola, Erhard (Mithrsg.), Fleischer, Wolfgang (Mithrsg.), Protze, Helmut (Mithrsg.), Kleine Enzyklopädie Die deutsche Sprache, 1. Aufl. 1969, VEB Bibliographisches Institut, Leipzig, S. 556f.
[2] ebd., S. 529
[3] Bußmann, Hadumod, Lexikon der Sprachwissenschaft, 2. Aufl. 1990, Kröner Verlag, Stuttgart
Fellbaum, Christine (Hrsg.), Wordnet an Electronic Lexical Database, 2. Aufl. 1998, The MIT Press, Cambridge/Massachusetts, USA