|
Projekt Terminologie-Server, SS 97
|
Feinkonzept für die Teilaufgabe
"Übersetzung Deutsch / Englisch"
Version 1.0
Edith
Holmes
Oliver
Holmes
Dokumentverweise:
1. Verfahren
Damit eine Benutzung englischer Software in diesem Projekt möglich
wird, müssen zunächst die Symptome, die der Benutzer eingegeben
hat, ins englische übersetzt werden.
Dafür stehen zwei Verfahren zur Auswahl, die grundsätzlich
zwei verschiedene Ansätze verfolgen:
-
Da zum Programm Xmed, welches bereits für dieses Projekt verwendet
wird, das Programm Transoft gehört, kann man dieses zur Übersetzung
verwenden. Voraussetzung dafür sind jedoch Kenntnisse in der M-Umgebung
von Xmed, und eine sorgfältige Konvertierung der zu übersetzenden
Wortliste in das für Transoft verständliche Format.
-
Ein eleganterer Ansatz ist die Ausnutzung des Umstandes, daß eine
MeSH-Nummer in jeder Sprache das gleiche bedeutet, d.h. eine MeSH-Nummer
im deutschen hat ihre entsprechende Übersetzung im englischen MeSH.
Aufgrund dieser Voraussetzung läßt sich ein sehr einfaches,
fachbezogenes, Übersetzungsprogramm erstellen.
Wir wählten letzteren Ansatz, da er uns als elegantere Lösung
erschien, vor allem im hinblick auf das Homonymproblem, das mit diesem
Verfahren einfach gelöst werden kann.Zunächst erhalten wir von
Gruppe 4 (dem Xmed Interface) die vom Benutzer eingegebenen Symptome als
SGML Datei. Diese Datei beinhaltet unter dem Header <Standard> Den kompletten
Text zusammenhängend, und außerdem noch unter anderen Headern
eine Aufteilung in verschiedene Gruppen (Symptome, Diagnosen, Lakalisationen....).
Wir verwenden nur den in <Standard> gespeicherten Text für die
Übersetzung. Zu diesen Worten wird die deutsche MeSH-Nummer gesucht,
in dem für jedes Wort einzeln die Nummer ermittelt, und in eine gemeinsame
Datei (deumesh.txt) gespeichert wird. Nun wird das englische MeSH verwendet,
um in eine neue Datei (engmesh.txt) die englischen Wörter zu speichern,
die zu der gefundenen Nummer gehören (Zahlen im deutschen Text werden
ignoriert!). Um Homonyme in der deutschen Wortliste zu ermitteln, muß
das komplette MeSH durchsucht werden, jedes mal, wenn zu einem deutschen
Wort die MeSH-Nummer gesucht wird. Wenn nach einem Durchgang mehrere Nummern
gefunden wurden (gespeichert in meshnum.txt), liegt ein Homonym vor, welches
aufgelöst werden muß, dazu wird dieses Wort, seine MeSH Nummern,
und der komplette Text an die Gruppe 3 übergeben, die das Problem
lösen soll. Zurück erwarten wir eine MeSH-Nummer.
Die fertige Übersetzung wird an die Gruppe 2 übergeben.
2. Daten und Variablen
Wir verwenden zwei Dateien für das Übersetzen, meshnum.txt, deumesh.txt
und engmesh.txt. Diese Dateien sind einfache ASCII Dateien, in denen Wörter
bzw. MeSH-Nummern von Leerzeichen getrennt stehen. Außerdem werden
noch einige Laufvariablen für Schleifenkonstrukte gebraucht.
3. Schnittstellen
Eingabe:Als Eingabe wird eine SGML Datei erwartet, die von Gruppe
4 kommt, in der die durch den Benutzer eingegebenen Symptome stehen. Während
des Programmlaufs kann es zu Eingaben durch die Gruppe 3 kommen, die ein
Lösung für ein aufgetretenes Homonymproblem liefern, indem sie
eine MeSH-Nummer an das Programm geben.
Ausgabe: Die Ausgabe besteht zum einen aus der Ausgabe der fertigen
Übersetzung an die Gruppe 2 in Form einer Liste von englischen Wörtern,
und zum anderen aus der Ausgabe an die Gruppe 3 in drei Teilen: dem Homonym,
sämtlicher MeSH-Nummern für dieses Homonym, dem kompletten Text.
4. Bemerkungen
MeSH steht dem Fachbereich auf CD zur Verfügung, es muß noch
geklärt werden, ob ein eigenes Programm zum ermitteln der deutschen
MeSH-Nummern geschrieben werden muß, oder ob auf den CDs ein Programm
ist, welches den Anforderungen, die in Verfahren
gestellt werden gerecht wird (d.h. MeSH muß komplett durchlaufen
werden, und alle gefundenen Nummern müssen gespeichert werden). Außerdem
ist nicht bekannt, ob es ein Programm gibt, das aus dem englischen MeSH
anhand einer Nummer das korrespondierende Wort ausgeben kann.
5. Struktogramm "Übersetzung Deutsch/Englisch" im Projekt Terminologieserver