De quoi s'agit-il ?

    Un thesaurus francophone est développé par la communauté francophone de OpenOffice.org. Il est publié sous la licence LGPL. Un thesaurus est un dictionnaire des synonymes. On peut y trouver, pour un mot déterminé, tous les mots ayant une même signification. Chaque utilisateur enregistré peut ajouter des synonymes et corriger des erreurs. En outre, nous essayons d'associer des mots ayant les mêmes rapports de sens. Par la publication des données sous LGPL, le thesaurus peut être utilisé avec OpenOffice.org et KOffice, entre autres.

Puis-je aussi télécharger les données du thésaurus ?

Comment puis-je participer ?

    En premier lieu, il faut absolument lire l'ensemble de la FAQ (Foire Aux Questions) jusqu'à la fin.

    Il est important de bien comprendre comment les données du Thesaurus sont structurées, à savoir en fonction de leur significations. Quand il existe, pour un mot comme banque, plusieurs significations, il doit exister une entrée par signification. On ne peut pas ainsi ajouter simplement d'autres synonymes qui signifieraient la même chose mais dans une autre signification. Par exemple, en plus de l'entrée établissement de crédit, on ne peut pas ainsi ajouter comptoir parce qu'il a une autre signification.

    On peut ajouter ou supprimer des synonymes à des entrées existantes. On peut effectuer des modifications, à l'aide d'un formulaire, qui deviennent immédiatement visibles.

    Pour insérer de nouvelles significations, il faut utiliser la recherche sur la page d'accueil. Il faut cocher 'Trouver comme sous-chaîne'. Si la signification n'existe pas encore, un lien s'affiche, permettant de l'insérer. Une fois la signification introduite, des synonymes peuvent aussi être ajoutés.

Pourquoi doit-on s'enregistrer ?

    Comme cela, nous voulons empêcher que trop d'absurdités soit introduites dans la base de données. Sans enregistrement, seul l'accès en lecture seule est possible.

Qu'est-ce qu'un synonyme ?

    Quand plusieurs mots ont la même signification dans un contexte déterminé, ils sont des synonymes. Par exemple :

    adresse - localisation
    habileté - adresse - réussite
    concerner - regarder

    Les paires de mots suivants ne sont au contraire pas des synonymes :

    chaud - incandescent ( la signification est vraiment trop différente )
    maison - bâtiment ( maison est un hyponyme (*) de bâtiment )

      un hyponyme est un mot dans le sens EST INCLUS dans celui d'un autre mot ( rose est un hyponyme de fleur ).
      à l'opposé, un hyperonyme est un mot dont le sens INCLUT celui d'un autre ( aliment est un hyperonyme de pain )

    Les synonymes de même signification forment un groupe de synonymes. Un mot avec plusieurs significations - comme banque - est présent dans plusieurs groupes de synonymes car il a différentes significations. Par exemple :

    Groupe de synonyme 1 : banque, agence de crédit
    Groupe de synonyme 2 : banque, comptoir

    Les groupes de synonymes correspondent aux 'synsets' de WordNet.

Le résultat de la recherche est faux, les synonymes ne conviennent pas non plus !

    Les données viennent à l'origine de la partie allemande de Ding, un dictionnaire Allemand-Anglais. Un dictionnaire bilingue n'est pas, en réalité, une base appropriée pour un thesaurus, mais c'était mieux que de commencer de zéro.

    Celui qui trouve une erreur, peut la corriger lui-même, il suffit de s'enregistrer.

Quelles corrections dois-je considérer ?

Réponse courte :

  • ??????????????

  • Utiliser la nouvelle orthographe. Ce n'est que dans les cas dans lesquels, conformément à une nouvelle orthographe, deux présentations sont permises, qu'il est possible de suggérer les deux.

  • Ne suggérer de nouvelles significations que si on connaît aussi au moins un synonyme. Les groupes de synonymes avec un seul mot sont, du reste, négligés au moment de l'exportation dans les différents fichiers.

  • N'insérer des termes techniques que s'ils sont dans une certaine mesure d'intérêt général.

  • Ne pas insérer de significations anglaises, sauf si elles sont très répandues (Par exemple, mail).

  • Ne pas suggérer de nouvelles abréviations (celles existantes peuvent toutefois rester).

  • Insérer seulement des formes de bases, pas de formes composées ou de déclinaisons.

Q'entend-on ici par forme de base ?

    Des formes de base doivent seulement être entrées dans la base de données, c'est-à-dire avec des verbes l'infinitif, avec un substantif (nom) le singulier, avec un adjectif la forme non accordée. Exemples :

    courir, mais pas couru, courons...
    maison, mais pas maisonS
    long, mais pas longues, longtemps

Ce projet existe-t-il aussi pour d'autres langues ?

    En dehors du site initiateur allemand, un projet existe en Espagne et démarre en France

Qui fait quoi ?

Worum geht es hier?

Hier wird mit Eurer Hilfe ein deutscher Thesaurus entwickelt, der unter der GPL veröffentlicht wird. Ein Thesaurus ist ein Synonymwörterbuch, man kann dort also zu einem bestimmten Wort bedeutungsgleiche Wörter finden. Jeder registrierte Benutzer kann dem Thesaurus Synonyme hinzufügen und Fehler korrigieren. Durch die Veröffentlichung der Daten unter der GPL kann der Thesaurus u.a. mit OpenOffice.org und KOffice benutzt werden.

Kann ich die Thesaurus-Daten auch herunterladen?

Wie kann ich mitarbeiten?

Zuerst einmal sollte man unbedingt die gesamte FAQ zu ende lesen.

Es ist wichtig, dass man versteht, wie die Thesaurusdaten hier strukturiert sind -- nämlich nach Bedeutungen. Wenn es also von einem Wort wie Bank mehrere Bedeutungen gibt, so muss pro Bedeutung ein Eintrag existieren. Man kann also nicht einfach weitere Synonyme hinzufügen, die nur in einem anderen Zusammenhang das gleiche bedeuten. Zu dem Eintrag Bank, Kreditinstitut kann man also nicht Sitzbank hinzufügen, weil das ja was anderes bedeutet.

Synonyme zu vorhandenen Begriffen hinzufügen oder löschen kann man auf der Synonymseite. Dort kann man mit Hilfe der Formularfelder Änderungen vornehmen, die sofort sichtbar werden.

Um neue Begriffe einzufügen, benutzt man auf der Homepage die Suche. Dabei muss "Teilworte finden" aktiviert sein. Auf der Ergebnisseite erscheint ein Link, mit dem man den Begriff einfügen kann. Sobald der Begriff angelegt ist, können dann auch Synonyme hinzugefügt werden.

Warum muss man sich registrieren?

Wir wollen so verhindern, dass zuviel Unsinn in die Datenbank eingegeben wird. Lesezugriff hat man auch ohne Registrierung.

Was ist ein Synonym?

Wenn zwei oder mehr Wörter in einem bestimmten Kontext die gleiche Bedeutung haben, sind sie Synonyme. Beispiele:

Adresse - Anschrift
gelingen - glücken - klappen
betreffen - angehen

Folgende Wortpaare sind dagegen keine Synonyme:

warm - heiß (die Bedeutung unterscheidet sich zu sehr)
Haus - Gebäude (Haus ist ein Unterbegriff (Hyponym) von Gebäude)

Die Synonyme einer Bedeutung bilden eine Synonymgruppe. Ein Wort mit verschiedenen Bedeutungen -- wie z.B. Bank -- taucht in so vielen Synonymgruppen auf, wie es verschiedene Bedeutungen hat, z.B.:

Synonymgruppe 1: Bank, Kreditinstitut
Synonymgruppe 2: Bank, Sitzbank

Die Synonymgruppen entsprechen den synsets von WordNet.

Das Suchergebnis ist falsch, die Synonyme stimmen doch gar nicht!

Die Daten stammen ursprünglich aus dem deutschen Teil von Ding, einem Deutsch-Englisch-Wörterbuch. Ein zweisprachiges Wörterbuch ist als Grundlage für einen Thesaurus eigentlich nicht geeignet, es war jedoch immer noch besser, als bei Null anzufangen.

Wer einen Fehler findet, kann ihn selber korrigieren, dazu muss man sich nur einloggen.

Was soll ich bei Korrektureingaben beachten?

In Kurzform:

  • Es geht nicht darum, auf anderen (Wörterbuch/Thesaurus-)Seiten zu surfen und dann die Begriffe systematisch zu übernehmen. Wenn das rechtlich und technisch möglich wäre, hätten wir das schon längst automatisch gemacht.

  • Die neue Rechtschreibung benutzen. Nur in Fällen, in denen laut neuer Rechtschreibung zwei Schreibweisen erlaubt sind, ist es auch okay, beide einzugeben.

  • Neue Begriffe nur eingeben, wenn man auch mindestens ein Synonym kennt. Synonymgruppen mit nur einem einzigen Wort werden beim Export in die verschiedenen Dateien ohnehin ignoriert.

  • Fachbegriffe nur einfügen, wenn sie einigermaßen von allgemeinem Interesse sind.

  • Keine englischen Begriffe einfügen, außer sie sind im Deutschen sehr verbreitet (z.B. Shampoo).

  • Keine neuen Abkürzungen eingeben (die bestehenden können aber drin bleiben).

  • Nur Grundformen (s.u.) einfügen, keine Beugungen.

Was ist hier mit Grundform gemeint?

In die Datenbank sollen nur nicht-abgeleitete Wortformen eingefügt werden, d.h. bei Verben der Infinitiv, bei Nomen der Singular, bei Adjektiven die nicht-gesteigerte Form. Beispiele:

okay: laufen, aber nicht: lief, läufst, ...
okay: Haus, aber nicht: Häuser
okay: lang, aber nicht: länger

Gibt es dieses Projekt auch für anderen Sprachen?

Es ist geplant, das gleiche auch mit anderen Sprachen zu machen, sofern für diese ebenfalls noch kein freier Thesaurus zur Verfügung steht und sofern sich Muttersprachler der jeweiligen Sprachen finden, die sich als Administrator intensiv um ihren Bereich kümmern.

Wer macht was?

Daniel Naber (daniel.naber [at] t-online.de): Konzept, Datenbank-Struktur, Programmierung, Administration
Björn Jacke (bjoern [at] j3e.de): Konzept, Datenbank-Struktur
Frank Richter (frank.richter [at] hrz.tu-chemnitz.de): Initialversion der Wortdaten

I want to start a thesaurus project for a new language. What should I do?

Please read this paper (PDF, 266 KB), it explains how OpenThesaurus works and how it can be adapted to other languages.