Notice

This page show a previous version of the article

Wie man ein guter Mitarbeiter auf Tatoeba wird

Einleitung

Dieser Artikel ist eine Pflichtlektüre für jeden, der ernsthaft auf Tatoeba mitarbeiten will. Er ist ziemlich lang, daher ist hier eine Zusammenfassung, wie man ein guter Mitarbeiter wird:

  1. Den Kontext des Projekts verstehen
  2. Understand how the corpus is structured
  3. Focus on the main sentence, not the other translations
  4. Translate the sentence as a whole rather than as a collection of individual words
  5. Do not edit a sentence if, by itself, it is correct
  6. Do not change the language in which a sentence is written
  7. Make sure you are adding comments to the right sentence
  8. Do not add sentences from copyrighted content
  9. Do not insert annotations into sentences
  10. Give us feedback
  11. Do not wait for us to code it if you can code it
  12. Indicate your languages in your profile
  13. Encourage and educate new or old contributors
  14. Spread the love

1. Den Kontext des Projekts verstehen

  • Ich habe 2006 mit dem Projekt begonnen. Der Anstoß kam von meiner Leidenschaft fürs Sprachenlernen und der Enttäuschung, kein zweckentsprechendes Onlinewörterbuch zu finden.
  • Das Projekt konzentriert sich auf Sätze und ich werde auf Sätzen bestehen. Der Grund ist, dass ich fand, das Beispielsätze Mangelware waren (und immer noch sind). Bitte füge nur vollständige Sätze hinzu, wenn du mitarbeitest.
  • Eine Zeit lang war ich tatsächlich “allein” mit diesem Projekt. Erst drei Jahre später, 2009, begannen andere Leute (alle Studenten der Computerwissenschaften) mir zu helfen, mehr Funktionalitäten zu programmieren.
  • Tatoeba ist KEIN gewerbliches Projekt. Wir sind keine Firma. Wir werden für nichts von dem, was wir hier tun, bezahlt. Es ist etwas, woran wir in unserer Freizeit arbeiten.
  • Um ehrlich zu sein - wir schließen die Möglichkeit, eines Tages eine Firma zu gründen, nicht aus, aber das wäre erst genau dann soweit, wenn wir ein innovatives, schlüssiges und moralisch einwandfreies Geschäftsmodel hätten (ja genau, viel Glück). Dinge wie überall Anzeigen zu haben und viele Zugriffe zu generieren, oder Leute zu zwingen, für den Zugang zu den Daten zu bezahlen, kommt nicht in Frage.

2. Verstehen, wie die Sammlung strukturiert ist

Das ist der knifflige Teil und ich hoffe, dass ich ihn für jeden deutlich genug erklären kann. Die Sammlung ist nicht wie eine Tabelle, sondern wie ein Graph strukturiert. Was bedeutet das? Nun, stell dir vor, du müsstest einen Ausschnitt aus der Sammlung auf Papier schreiben. Was du sicherlich machen würdest, wäre sowas wie das hier:

**English** **French** **Spanish**
My name is Trang. Je m'appelle Trang. Me llamo Trang.
How are you? Comment vas-tu? ¿Cómo estás?
... ... ...

Das ist eine Tabellenstruktur mit Zeilen und Spalten: Eine Zeile enthält Sätze, deren Bedeutungen jeweils gleich sind, eine Spalte enthält Sätze, die jeweils die gleiche Sprache haben. Das ist der erste Ansatz, den jeder haben würde, aber so ist die Sammlung NICHT strukturiert.

Die Sammlung ist so strukturiert:

Schema of a graph of sentences in English, French and Spanish

Das ist eine Graphstruktur mit Knoten und Kanten: Jeder Satz stellt einen Knoten dar und jede Verbindung zwischen zwei Sätzen wird durch eine Kante dargestellt. Wenn zwei Sätze verbunden sind, haben sie die gleiche Bedeutung.

Die Art, wie man mitarbeitet, ist bei dieser Struktur ganz anders. Eine wichtige Konsequenz ist, dass man mehrere Übersetzungen in der gleichen Sprache zu einem bestimmen Satz hinzufügen kann. Du meinst, dass es mehrere Möglichkeiten gibt, einen Satz zu übersetzen und kannst dich nicht wirklich entscheiden, welche die beste wäre? Dann füge einfach beide hinzu!

Einige weitere Konsequenzen werden weiter unten ausgeführt.

3. Andere Übersetzungen nicht beachten

Wenn du einen Satz übersetzt, werden tatsächlich die folgenden Vorgänge ausgeführt: es wird ein Satz hinzugefügt (d.h. es wird ein neuer Knoten erstellt) und es wird eine Verbindung hinzugefügt (d.h. es wird eine neue Kante erstellt) zwischen dem “Originalsatz” und deiner Übersetzung. Daher ist das Einzige, wofür du Sorge zu tragen hast, dass du eine korrekte Übersetzung zum “Hauptsatz” (dem obersten Satz, der größer geschrieben ist) hinzufügst.

Konkreter, lass uns annehmen, du wolltest eine deutsche Übersetzung zum folgenden englischen Satz hinzufügen:

How are you? => Comment vas-tu ?

Du könntest "Wie geht es dir?" (duzen) hinzufügen oder genauso gut auch "Wie geht es Ihnen?" (siezen). Oder aber auch beide Übersetzungen (da man mehrere Übersetzungen in einer Sprache hinzufügen kann). Dass der französisch Satz duzt spielt keine Rolle (du musst also den französischen Satz gar nicht verstehen!), du musst dich nur darum kümmern, dass dein Satz eine passende Übersetzung des englischen Satzes ist. “Passende Übersetzung” bedeutet dabei, dass “How are you?” eine mögliche Übersetzung wäre, wenn jemand deinen deutschen Satz zurück ins Englische übersetzen würde.

4. Nicht Wort für Wort übersetzen

Wir haben kein Interesse an Sätzen die so klingen als wären sie von einem Automaten geschrieben worden. Wir wollen Sätze, die so sind, wie ein Muttersprachler sich ausdrücken würde. Übersetzen ist eine sehr schwierige Aufgabe, das wissen wir. Aber wenn du in deine Muttersprache übersetzt, solltest du wirklich immer deine Übersetzung nochmal für sich durchlesen und dich fragen, ob man sich tatsächlich so ausdrücken würde. Du kannst die Kommentarfunktion nutzen, um auf eine wörtliche Übersetzung hinzuweisen.

Wenn du jedoch nicht in deine Muttersprache übersetzt (was du darfst), dann sei dir verziehen, wenn deine Sätze nicht wie die eines Muttersprachlers klingen. Schließlich ist Tatoeba ein gemeinschaftliches Projekt und irgendwann wird (hoffentlich) ein Muttersprachler über deine Übersetzung stolpern und kontrollieren, ob sie richtig klingt oder nicht.

Es ist wichtig, zu verstehen, dass es in Tatoeba nicht nur darum geht, Übersetzungen zu liefern, sondern auch darum, Daten über eine Sprache zu sammeln. Man könnte auch einfach nur Sätze hinzufügen ohne sie zu übersetzen. Würden wir beispielsweise alle italienischen Sätze extrahieren, dann würden wir wollen, dass diese alle repräsentativ für die italienische Sprache sind.

Die Sätze sind die Grundebene. Die Verbindungen zwischen den Sätzen sind eine andere Ebene. Aber die Sammlung sollte auch ohne diese Verbindungen Sinn machen.

5. Keinen Satz ändern, der für sich allein genommen, korrekt ist

Wie ich gerade oben erwähnt habe, könnten wir uns auf Tatoeba einfach darauf beschränken, Sätze hinzuzufügen ohne sie zu übersetzen. Folglich solltest du, bevor du einen Satz änderst, ihn anschauen ohne seine Übersetzungen zu beachten und dich fragen "Hat dieser Satz einen Rechtschreib- oder Grammatikfehler? Klingt er komisch?”. Wenn die Antwort “Nein” ist, dann ändere ihn NICHT. Lass ihn in Ruhe!

Ich erkläre das, da man in Versuchung geraten könnte, einen Satz zu ändern, um seine Bedeutung mit denen aller anderen Sätze in Übereinstimmung zu bringen.

Es könnte sein, dass man einen Satz in eine “wörtlichere” Übersetzung ändern will. Aber das ist keine gute Idee. Offensichtlich wollen wir nicht, dass du Wort für Wort übersetzt (siehe Regel #4), wir wollen auch nicht, dass du einen Satz in eine wortwörtliche Übersetzung änderst.

Es könnte auch sein, dass der Satz ÜBERHAUPT NICHT passt. Zum Beispiel:

Ich heiße Trang. => Je m'appelle Trang. => Allons à la plage.

Wie man sieht hat der französische Satz (der "Lasst uns an den Strand gehen." bedeutet) nichts mit dem deutschen Satz zu tun.

Vielleicht ist dein Französisch nicht so gut und du traust dir daher nicht zu, den französischen Satz zu ändern und beschließt daher, den deutschen Satz zu ändern. Das Problem dabei: Was ist mit dem englischen Satz? Er würde nicht mehr zum deutschen Satz passen...

Vielleicht ist Französisch auch deine Muttersprache (Anm. des Übersetzers: ja klar, deswegen liest du ja auch diese Anleitung auf Deutsch ;)!) und du beschließt, den französischen Satz zu ändern. In diesem Sonderfall wäre es noch akzeptabel, da der französische Satz mit keinem anderen Satz verlinkt ist. Aber wenn jemand diesen französischen Satz schon ins Italienische übersetzt hätte, würde das “Korrigieren” des französischen Satzes einen Konflikt mit der italienischen Übersetzung auslösen.

Und dann ist da noch ein Problem, an das du möglicherweise noch nicht gedacht hast: Wenn du die Bedeutung eines Satzes änderst, löscht du potenziell einzigartiges Vokabular. Was ist, wenn der französische Satz gerade der einzige Satz mit “plage” war?

Daher ist die beste Vorgehensweise in so einer Situation, eine neue französische Übersetzung hinzuzufügen (Je m’appelle Trang.) und die aktuelle französische Übersetzung zu “entlinken”. BEACHTE: Nicht jeder kann entlinken. Nur “fortgeschrittene Mitarbeiter” können es. Du kannst durch einen Kommentar dazu auffordern, einen bestimmten Satz zu entlinken.

6. Nicht die Sprache eines Satzes ändern

Wenn die Sprachflagge eines Satzes die falsche ist (etwa eine chinesische Flagge zu einem japanischen Satz), dann kannst du sie natürlich ändern. Das ist nicht das, was ich mit “Nicht die Sprache eines Satzes ändern” (unter)sagen will.

Ich meine, dass du nicht einen japanischen Satz durch einen chinesischen Satz mit der gleichen Bedeutung ersetzen solltest (und das Gleiche gilt natürlich für alle Sprachen). Es sollte nicht oft vorkommen, aber wenn du in der Situation bist, das tun zu wollen, dann tu es nicht.

Das Problem ist, dass ein Satz mit Daten verknüpft werden kann, die von seiner Sprache abhängen. Kommentare zum Beispiel. Leute können Kommentare zu Sätzen posten und die Kommentare sind möglicherweise nur stichhaltig, weil der Satz in einer bestimmten Sprache war.

Zur Zeit betrifft dies vorrangig japanische Sätze, die mit einer Art Anmerkungen verknüpft werden. Diese Anmerkungen werden nicht angezeigt, da sie für den Normalnutzer nicht nützlich sind. Wenn man einen japanischen Satz durch einen englischen Satz ersetzt, dann machen die Anmerkungen, die mit ihm verknüpft sind, keinen Sinn mehr.

7. Kommentare zum richtigen Satz posten

Wenn du einen Kommentar postest, dann wird dieser Kommentar nur mit dem Hauptsatz verknüpft. Achte daher darauf, dass dein Kommentar sich auf eben diesen Satz bezieht.

Typisches Beispiel - du willst auf einen Schreibfehler, wie diesen hier, aufmerksam machen:

Ich heiße Trang.

=> Je m'appel Trang.

=> Me llamo Trang.

Man sieht, dass der französische Satz falsch ist. Es muss “appelle” und nicht “appel” heißen. Wenn du hier einen Kommentar postest, würde er aber mit dem deutschen Satz verknüpft werden (dieser steht an oberster Stelle, ist also der Hauptsatz). Das ist nicht, was du willst. Die richtige Vorgehensweise wäre also, zuerst auf den französischen Satz zu klicken, was die Anordnung in die folgende ändern würde:

Je m'appel Trang.

=> Ich heiße Trang.

=> Me llamo Trang.

und dann deinen Kommentar zu posten.

Nun zum Fall, dass du auf eine falsche Übersetzung aufmerksam machen willst. Dein Kommentar wird sich auf zwei Sätze beziehen, wo sollst du ihn also hinschreiben? Idealerweise sollte es für solche Situationen eine Möglichkeit geben, einen Kommentar zu einer Verknüpfung zu posten. Aber so etwas haben wir nicht, wir können nur Sätze kommentieren. Daher kannst du selber auswählen, wo du deinen Kommentar posten willst. Denke nur daran, dass er einen Bezug zum Hauptsatz haben sollte.

8. Keine Sätze aus urheberrechtlich geschütztem Inhalt hinzufügen

Wir stellen die Sammlung unter die Creative Commons Attribution (or CC-BY) Lizenz. Dadurch ist es jedermann möglich, die Daten ganz wie er will weiterzuverwenden, solange er Tatoeba in seinem Erzeugnis erwähnt.

Als ein Mitarbeiter hast du den Nutzungsbedingungen zugestimmt (die du natürlich nicht gelesen hast) und daher stellst du deine Beiträge auch unter der CC-BY Lizenz zur Verfügung. Das bedeutet, wir können deine Daten (Anmerkung des Übersetzers: “deine Daten” bezieht sich auf deine Sätze, Übersetzungen etc. - nicht auf deine persönlichen Angaben) weiterverwenden, wie wir wollen, solange wir dich erwähnen. So verwenden wir deine Erzeugnisse auf Tatoeba weiter und erwähnen dich durch die Logs und Statistiken.

Dass du deine Daten Daten unter CC-BY zur Verfügung stellst, bedeutet aber, dass du auch Verantwortung hast für das, was du anbietest. Und du musst wissen, dass man NICHT legal Daten weitergeben kann, die aus einer Quelle stammen, die klar angibt. dass man es nicht darf. Typisches Beispiel: Man kann nicht (legal) Sätze aus einem Lehrbuch kopieren und sie zu Tatoeba hinzufügen

Keine Sorge, wenn du ein paar Sätze aus einem Lehrbuch hinzugefügt hast, wirst du (und werden wir) deswegen nicht ins Gefängnis kommen und lebenslang Schulden haben (hoffentlich...), aber das Gesetz verbietet uns, die Arbeit anderer ohne deren Zustimmung weiterzuverwenden. Sätze und Übersetzungen zu erzeugen ist Arbeit, also achte darauf, wo du deine Sätze hernimmst. Wünschenswerterweise bringst du eigene Sätze oder nimmst sie aus Büchern die gemeinfrei sind.

Wenn du Sätze hinzugefügt oder gesehen hast, die aus urheberrechtlich geschützten Quellen stammen, dann ändere ein paar Worte, damit es nicht mehr genau der gleiche Satz ist. Oder vehandle mit den Autoren und überzeuge sie, ihre Arbeit unter der CC-BY Lizenz anzubieten, damit wir sie weiterverwenden können.

Ich werde nicht darüber streiten, ob all das hier Sinn macht oder nicht (offensichtlich glaube ich, dass es Sinn macht), aber es würde uns sehr helfen, wenn jeder das Nötige tun würde, dass wir nicht verklagt werden.

9. Sätze nicht mit Anmerkungen versehen

Wir wollen, dass Sätze so “roh” wie möglich bleiben, also füge bitte keine Anmerkungen hinzu. Zum Beispiel wollen wir KEINE Sätze wie diese:

  1. Ich (weiblich) bin glücklich.
  2. Er hat dir einen Bären aufgebunden. (Redewendung)
  3. Ich mag ihn/sie.

Wenn du, wie in den Sätzen 1 und 2 darauf hinweisen willst, dass ein Satz eine Redewendung oder von einer Frau gesprochen oder was auch immer ist, dann schreibe bitte einen Kommentar dazu (oder füge ein Etikett hinzu, wenn du “fortgeschrittener Mitarbeiter” bist), aber schreib diese Information bitte NICHT direkt in den Satz.

Was Satz 3 betrifft: Mach aus deinem einen Satz einfach zwei Sätze, wenn du beide Versionen haben möchtest. Denk daran, dass du das Recht hast, mehrere Übersetzungen in der gleichen Sprache hinzuzufügen. Es ist also okay, es so zu machen:

Je l'aime bien.

=> Ich mag sie.

=> Ich mag ihn.

Es gibt verschiedene Gründe, wieso wir keine Anmerkungen wollen.

  1. Sie können ein Problem für Leute sein, die unsere Daten verwenden, um zum Beispiel ein natürliches Sprachverarbeitungssystem zu verbessern.
  2. Deine Übersetzung kann in eine andere Sprache weiterübersetzt werden, und es ist schwieriger, Sätze zu übersetzen, die Alternativen (wie ihn/sie) enthalten.
  3. Wenn wir Audiodateien für Sätze aufnehmen wollen, müssen wir aussuchen, was wir genau aufnehmen sollen, und Anmerkungen sind da nicht gerade hilfreich.

10. Uns Rückmeldung geben

Wir wissen, dass Tatoeba nicht perfekt ist, also keine Hemmungen, uns mitzuteilen, was deiner Meinung nach fehlt (vergewissere dich nur, dass nicht schon jemand das Thema auf derPinnwand angesprochen hat). Gib uns auch Bescheid, wenn du Schreibfehler siehst, findest, dass manche Erklärungen nicht klar sind oder auf Programmierfehler stößt.

Wir wissen auch, dass Tatoeba ein cooles Projekt ist, also tu dir keinen Zwang an, erzähle uns, dass du es auch magst :P !

11. Nicht abwarten bis wir etwas programmieren, wenn du es tun kannst

Genau wie wir deine Rückmeldungen willkommen heißen, heißen wir auch noch mehr INITIATIVE willkommen. Es gibt einfach sooo viele Sache, die wir machen könnten. Wir können uns nicht um alles kümmern. Zum Beispiel bieten wir die gesamte Sammlung an, aber viele Leute brauchen wahrscheinlich nicht alle Sätze in allen Sprachen. Du willst möglicherweise nur die Englisch-Spanisch-Satzpaare. Nun, statt uns zu bitten und abzuwarten, dass wir eine Datei mit nur Englisch-Spanisch-Satzpaaren zur Verfügung stellen, kannst du ein Hilfsprogramm programmieren (und bitte, teil uns mit, wenn du das tust), das nur den Teil aus unseren Dateien extrahiert, den du willst.

Das ist nur ein Beispiel, aber wenn du Programmier bist, dann könnte es viele Dinge geben, die du selber tun könntest, statt darauf zu warten, dass wir es tun. Aber natürlich, teile es uns bitte mit, damit wir nicht beginnen, an etwas zu arbeiten, an dem du zu arbeiten planst.

Du solltest auch wissen, dass wir in der Tat quelloffen sind (unter AGPL Lizenz), aber wir “werben” nicht wirklich für diesen Aspekt, denn:

  1. Der Kode strotzt noch nicht gerade vor Eleganz... zu viele Teile lassen mich noch erschaudern, wenn ich sie anschaue..
  2. Wir haben noch keine einwandfreie Methodik und Organisation in unserer Arbeitsweise und ich habe wirklich keine Zeit, noch mehr Leute zu leiten.

Dennoch, wenn du das Projekt liebst und wirklich motiviert bist, dich dem Entwicklerteam anzuschließen, dann wende dich an uns =).

12. Deine Sprachen in deinem Profil angeben

Für die, die es noch nicht wussten: man kann sein Profil ändern, indem man auf seinen Benutzernamen klickt (oben in der Menüleiste).

Da es auf Tatoeba um Sprachen geht, kann es sehr nützlich für andere Benutzer sein, zu wissen, welche Sprachen du sprichst und wie gut du sie sprichst. Wir haben nicht extra ein “Sprachen”-Feld, daher solltest du in deiner Profilbeschreibung darüber schreiben (im Abschnitt “Über dich”).

Und bitte auch andere Nutzer, ihre Sprachen in ihrem Profil anzugeben (wenn sie es noch nicht getan haben), insbesondere, wenn sie schon mitgearbeitet haben.

13. Neue (oder auch nicht so neue) Mitarbeiter ermutigen und ausbilden

Die Gemeinschaft ist sehr wichtig in einem Projekt wie Tatoeba. Ohne eine starke Gemeinschaft können wir unsere Ziele nicht erreichen. Aber wie baut man eine starke Gemeinschaft auf? Nun, ein Punkt ist, neuen Nutzern NICHT das Gefühl zu geben, verloren und isoliert zu sein.

Ein Teil davon hängt vom System ab. Es muss so ausgestaltet sein, dass es Nutzern nicht nur ermöglicht, sondern sie auch ermutigt, miteinander zu interagieren. Tatoeba ist nicht großartig darin, aber ein Minimum ist vorhanden (Privatnachrichten, Pinnwand, Kommentare).

Der andere Teil hängt natürlich von der Gemeinschaft selber ab. Die Gemeinschaft muss sich bemühen, eine stärkere Gemeinschaft aufzubauen. Wenn jemand eine Frage stellt, die du beantworten kannst, dann zögere nicht, zu helfen. Wenn du siehst, dass jemand etwas falsch macht, dann zögere nicht, ihm zu sagen, wie man es richtig macht. Wenn du siehst, dass jemand bedeutend mitgearbeitet hat, dass zögere nicht, ein paar Zeilen zu schreiben (in einer privaten Nachricht oder auf der Pinnwand) um zu gratulieren oder für die Arbeit zu danken.

Allgemeiner gesprochen, wenn du irgendeine Idee hast, wie man Tatoeba zu einem gesellschaftlich liebenswürdigeren Ort machen kann, dann los!

14. Die Liebe weiterverbreiten

Zu guter Letzt: Du liebst das Projekt, wir lieben das Projekt, wir wollen alle, dass es das großartigste Sprach-Hilfsprogramm aller Zeiten wird, also bring mehr Leute dazu, an diesem Abenteuer teilzuhaben!

Letztendlich kann jeder, der lesen und schreiben kann, mitmachen. Man muss kein Polyglott sein. Wenn du “nur” Fehler finden und korrigieren oder aufzeigen kannst, dann ist das schon extrem hilfreich. Je mehr Leute wir haben, desto mehr Fehler können wir ausmerzen und desto mehr Daten können wir produzieren, auf die man sich verlassen kann. Und alle können glücklich und zufrieden bis an ihr Lebensende leben.


zurück zu tatoeba