The language resources included in Unitex/GramLab are distributed under the LGPLLR license. According to this license, you can obtain readable versions of these resources. You can download them for English and French here. You can also use the Uncompress program included in Unitex 2.1 or higher to get the text version of binary dictionaries distributed with Unitex.

The latest Unitex/GramLab distribution contains resources for many languages. Here is a brief presentation of these resources. THESE RESOURCES ARE NOT THE WHOLE DICTIONARIES. Please follow the links for more information.

Language Native name Language Family IETF ISO 639-2 ISO 639-1
Arabic العربية Afro-Asiatic ar ara ar

Corpora

  • Fishing Earthquakes Water
  • Hayy ibn Yaqdhan, by Ibn Tufail
Language Native name Language Family IETF ISO 639-2 ISO 639-1
English English Indo-European en eng en

Corpora

  • Ivanhoe, by Sir Walter Scott (courtesy of Jim Manis)

Dictionaries

  • 296,606 simple words (150,145 distinct lemmas)
  • 132,990 compound words (69,912 distinct lemmas)

References

Simple words

Klarsfeld, G., McCarthy-Hammani. Dictionnaire électronique du LADL pour les mots simples de l'anglais.
Monceaux, A. 1995. Le dictionnaire des mots simples anglais : mots nouveaux et variantes orthographiques, rapport technique IGM 95-15, Institut Gaspard Monge, Université de Marne-la-Vallée

Compound words

Savary, A. (2000). Recensement et description des mots composés - méthodes et applications. Thèse de doctorat en Informatique Fondamentale, Université de Marne-la-Vallée, pp. 90-101
Chrobot, A., Courtois, B., Hammani, M., Gross, M., Zellagui, K. (1999). Dictionnaire Electronique DELAC anglais : noms composés, rapport technique n°59, LADL, Université Paris 7.
Language Native name Language Family IETF ISO 639-2 ISO 639-1
Finnish Suomi Uralic fi fin fi

Corpora

  • Universal Declaration of Human Rights

References

Holman, Eugene, 1984, Handbook of Finnsih Verbs, Suomalaisen Kirjallisuuden Toimituksia 408, SKS, Vaasa.
Jäppinen, Harri and Ylilammi, Matti, 1986, "Associative Model of Morphological Analysis :An Empirical Inquiry" Computational Linguistics, Volume 12, n° 4, 257-269.
Karlsson, Fred, 1979, "Automatic Morphological Segmentation of Finnsih Word Forms", Papers from the Conference on General Linguistics, Seili, Publications of the Linguistic Association of Finland, Turku, 77-90.
Karlsson, Fred, 1982a, Suomen kielen äänne- ja muotorakenne, WSOY, Helsinki.
Karlsson, Fred, 1982b, Suomen peruskielioppi, SKS, Piekäsämki.
Koskenniemi, Kimmo, 1979, "On Automatic Lemmatisation of Finnish" Papers from the Conference on General Linguistics, Seili, Publications of the Linguistic Association of Finland, Turku, 77-90.
Laaksonen, Kaino & Lieko, Anneli, 1988, Kielen äänne- ja muoto-oppi, Oy Finn Lectura Ab, Helsinki.
Maurel, Denis and Guenthner, Franz, 2005, Automata and Dictionaries Texts in Computing Science, Volume 6, King’s College Publications, London.
Pentillä, Aarni, 1957, Suomen Kielioppi, Werner Södertröm Osakeyhtiö, Porvoo, Helsinki.
Remes, Hannu. 1985, Suomen kielen fonologian ja taivutusmorfologian perusteet, Joensuun yliopisto.
Renault, Richard. 1985, Suomen kielen fonologian ja taivutusmorfologian perusteet, in Bottineau, Didier (ed), Les agglutinations dans la morphologie et dans les langues, Approche typologique et contrastive et théorisation, LINX 58, à paraître.
Tuomi,Tuomo (ed.), 1972, Suomen kielen käänteissanakirja, SKS, Hämeenlinna.

More information

Language Native name Language Family IETF ISO 639-2 ISO 639-1
French Français Indo-European fr fra fr

Corpora

  • Le tour du monde en 80 jours, by Jules Verne

Dictionaries

  • 683,824 simple words (102,073 distinct lemmas)
  • 108,436 compound words (83,604 distinct lemmas)
  • given name dictionaries (24,000 entries)
  • profession dictionary (4,200 entries)
  • 2,700 Quebec simple words

References

France simple words

Courtois Blandine, 1990, Un système de dictionnaires électroniques pour les mots simples du français, Langue Française 87, Paris: Larousse.
Courtois Blandine, 1994-1995, Buts et méthodes de l'élaboration des dictionnaires électroniques du LADL, Cahiers du CIEL "Théories et pratiques du lexique", Université Paris 7.
Courtois, Blandine, 1996, "Formes ambiguës de la langue française", Lingvisticae Investigationes XX:1, Amsterdam/Philadelphia, John Benjamins, p.167-202.

Quebec simple words

Labelle, Jacques, 1993a, "Lexiques-grammaires et dictionnaires comparés: deux variétés de français, un français commun", Revue d'études canadiennes, revue de l'Association Italienne d'Etudes Canadiennes, Bari, Schena Editore.
Labelle, Jacques, 1993b, Dictionnaire électronique des formes simples en français du Québec: DELQUES V1.0, Rapport de recherche 9, Montréal, GRFL, UQAM.
Labelle, Jacques, 1995, "Le traitement automatique des variantes linguistiques en français: l'exemple des concrets", Lingvisticae Investigationes XIX:1, Amsterdam/Philadelphia: John Benjamins, p.137-152.
Labelle, Jacques, 1995, "Lexique-grammaire et variation en français", in J. Labelle et Ch. Leclère (eds.), Lexique grammaires comparés en français, LIS 17, p.13-28, Amsterdam/Philadelphia, John Benjamins.

France compound words

Courtois, Blandine ; Garrigues, Mylène ; Gross, Gaston ; Gross, Maurice ; Jung, René ; Mathieu-Colas, Michel ; Silberztein, Max ; Vivès, Robert. 1997. Dictionnaire électronique des noms composés DELAC : les composants NA et NN, Rapport Technique du LADL 55, Paris, Université Paris 7.
Courtois, Blandine ; Garrigues, Mylène ; Gross, Gaston ; Gross, Maurice ; Jung, René ; Mathieu-Colas, Michel ; Monceaux, Anne ; Poncet-Montange Anne ; Silberztein, Max ; Vivès, Robert. 1997. Dictionnaire électronique DELAC : les noms composés binaires, Rapport Technique du LADL 56, Paris, Université Paris 7.
Gross, Gaston. 1996. Les expressions figées en français. Noms composés et autres locutions, Paris : Ophrys.
Monceaux, Anne. 1993. La formation des noms composés de structure Nom Adjectif. élaboration d'un dictionnaire électronique. Thèse de doctorat, Université de Paris 7.
Silberztein, Max D. 1993, Les groupes nominaux productifs et les noms composés lexicalisés, Lingvisticae Investigationes XVII:2, Amsterdam/Philadelphia : John Benjamins, p. 405-426.
Gross, Gaston. 1990. Définition des noms composés dans un lexique-grammaire. Langue Française 87, Paris : Larousse.
Silberztein, Max. 1990. Le dictionnaire électronique des mots composés. Langue Française 87, pp. 71-83, Paris : Larousse.
Courtois, Blandine; Max Silberztein. 1989. Les dictionnaires électroniques DELAS et DELAC. In RELAI: Recherches en Linguistique Appliquée à l'Informatique. Actes du colloque "La description des langues naturelles en vue d'applications informatiques", Québec, 1988, Québec : Université Laval.
Gross, Gaston. 1988. Noms composés N de N. Rapport de Recherches 5, Laboratoire de Linguistique Informatique, Villetaneuse : Université Paris 13.
Gross, Gaston. 1988. Noms composés N de N. Rapport de Recherches 6, Laboratoire de Linguistique Informatique, Villetaneuse : Université Paris 13.
Gross, Gaston. 1988. Degré de figement dans les noms composés. Langages 90, pp. 57-72, Paris : Larousse.
Mathieu-Colas, Michel. 1988. Variations graphiques des mots composés dans le Petit Larousse et le Petit Robert. Lingvisticae Investigationes XII:2, pp. 235-280, Amsterdam/Philadelphia : John Benjamins.
Gross, Gaston; René Jung; Michel Mathieu-Colas. 1987. échantillon de noms composés de la forme Nom-Adjectif, Rapport 5 du Programme de Recherches Coordonnées Informatique Linguistique, LADL, Paris : Université Paris 7.
Mathieu-Colas, Michel. 1987. Composés de type NAdj. Rapport de Recherches 3, Laboratoire de Linguistique et Informatique, Université de Villetaneuse.
Gross, Gaston. 1986. Typologie des noms composés: le lexique électronique des noms composés du français, Rapport ATP, CNRS, Université Paris 13.
Gross, Maurice, 1986. "Lexicon-Grammar. The Representation of Compound Words". In COLING-1986. Proceedings, Bonn, pp. 1-6.

France frozen adverbs

Gross, Maurice, 1986. Grammaire transformationnelle du français. 3 - Syntaxe de l'adverbe, Paris, 670 p.

France subordinating conjunctions

Piot, Mireille. 1976. Les conjonctions 'finales' du français. Recherches Linguistiques 5, pp. 208-234, Université Paris 8-Vincennes.
Piot, Mireille. 1978. Étude transformationnelle de quelques classes de conjonctions de subordination du français. Thèse de troisième cycle, LADL, Université Paris 7, 455 p.
Piot, Mireille. 1979. Les conjonctions 'finales' du français. Lingua e Stile 14:1, pp. 27-48.
Piot, Mireille. 1984. Sur une classe de conjonctions de subordination du français. Revue Québécoise de Linguistique 13.2:157-191.
Piot, Mireille. 1988a. Coordination-subordination : une définition générale. Langue Française 77, pp. 3-18, Paris : Larousse.
Piot, Mireille. 1988b. Conjonctions de subordination et figement. Langages 90, pp. 39-56, Paris: Larousse.
Piot, Mireille. 1988c. Conjonctions de subordination et problèmes de classification. In Grammaire et histoire de la grammaire. Hommage à la mémoire de Jean Stéfanini, pp. 335-352, Aix-en-Provence: Publications de l'Université de Provence.
Piot, Mireille. 1991. Problèmes de classification dans les conjonctions de subordination du français. Studia Romanica Posnaniensia XVI, pp. 135-148, Posnan: UAM.
Piot, Mireille. 1991. Quelques problèmes inédits de constructions avec des conjonctions "conséquentielles". Lingvisticae Investigationes XV:2, Amsterdam/Philadelphia: John Benjamins, pp. 285-303.
Piot, Mireille. 1993. Méthodologie et recherche en syntaxe comparée des langues romanes. L'exemple des complétives et infinitives. Studia Romanica Posnaniensia XVII, Poznan, Pologne : UAM, pp. 175-187.
Piot, Mireille. 1993. "Le pronom en dans les subordonnées 'conséquentielles', Actes du Vème Colloque International des Langues Romanes et Slaves (1992), Cracovie, Pologne.
Piot, Mireille. 1993, "Les connecteurs du français", Lingvisticae Investigationes XVII:1, Amsterdam/Philadelphia, John Benjamins, pp. 141-160.
Piot, Mireille. 1995, "Les conjonctions de subordination et la négation", in H. Bat-Zeev Shyldkrot et L. Kupferman (eds.), Tendances récentes en linguistique française et générale. Volume dédié à David Gaatone, LIS 20, Amsterdam/Philadelphia, John Benjamins, pp. 335-344.
Piot, Mireille. 1995, Composition transformationnelle de phrases par subordination et coordination, Thèse de Doctorat d'état, Paris, Université Paris 7, 426 p.
Piot, Mireille. 1996. Conjonctions de temps et constructions absolues dans les langues romanes. In Actes du 19ème Congrès International de Philologie et de Linguistique Romane (1989), Santiago de Compostela, 24 p.
Piot, Mireille. 1996, "Problemi nella classificazione delle congiunzioni subordinanti del francese" in E. D'Agostino (ed.), Tra sintassi e semantica, Napoli, ESI, pp. 399-413.
Piot, Mireille. 1996, "Propriétés et définition des conjonctions de subordination, de coordination et des adverbes conjonctifs du français", in B. Lamiroy et W. Van Belle (eds.), Themanummer 'Connectoren', Leuvense Bijdragen 84 (1995), 3, pp. 329-348.
Piot, Mireille. 1997, "Subordination-coordination : étude de transferts et des relations entre processus", in C. Muller (ed.), Actes du Colloque International 'Indépendance et intégration syntaxiques' (Bordeaux), Tübingen, Max Niemeyer, pp. 35-42. 
Language Native name Language Family IETF ISO 639-2 ISO 639-1
Georgian (Ancient) ქართული South Caucasian oge

Corpora

  • Isaac of Nineveh (Isaacus Ninivita), first collection, unpublished old Georgian text of two different translations, old translation (IXs) and new translation (XIs) — 25.900 words; 7.180 forms.

Dictionaries

  • 7.254 simple words

References

P. Bedjan, Mar Isaacus Ninivita de perfectione religiosa, Parisiis, 1909.
A. J. Wensinck, Mystic Treatises by Isaac of Nineveh, Amsterdam, 1923.
D. Miller, The Ascetical Homilies Saint Isaac the Syrian, Boston, 1984.

More information

  • More information is available from the "Apply Lexical Resources" window of the Unitex/GramLab IDE.
Language Native name Language Family IETF ISO 639-2 ISO 639-1
German Deutsch Indo-European de deu de

Corpora

  • Franz Kafka's "Proceß"

Dictionaries

  • 30.000 word forms
  • Additional dictionaries, e.g. for numerals

The dictionary is an extract of the German computational morphological dictionary developed at CIS, Munich (CISLEX).

This extract contains about 10% of the original dictionary, minimally the most frequent lemmata, so it is possible to work with it. For the full version of the lexicon (300,000 lemmata), please contact F. Guenthner at gue at cis.uni-muenchen.de

References

Engelke, Sabine 2003: Freie und feste Adverbiale im Deutschen. Studien zur Informations- und Sprachverarbeitung 8. München: CIS. [Ph.D. LMU München] 
Guenthner, Franz; Petra Maier 1996: Das CISLEX-Wörterbuchsystem. In: Feldweg, H.; E. W. Hinrichs (eds.): Lexikon und Text 69–82. Tübingen: Max Niemeyer. [also in: Lexikographica 73, 69–82.] 
Langer, Stefan 1996: Selektionsklassen und Hyponymie im Lexikon. Ph.D.. CIS-Bericht-96-94. München. [http://www.cis.uni-muenchen.de/pub/cis-berichte/diss_langer.ps.gz] [Ph.D. LMU München] 
Langer, Stefan; Petra Maier; Jürgen Oesterle 1996: CISLEX -- An electronic dictionary for German: its structure and a lexicographic application. CIS-Bericht-96-97. München. [also in: Kiefer, F. et al. (eds.): Papers in computational lexicography. COMPLEX 1996, 155-156. Budapest] 
Maier-Meyer, Petra 1995: Lexikon und automatische Lemmatisierung. CIS-Bericht-95-84. München. [http://www.cis.uni-muenchen.de/pub/cis-berichte/CIS-Bericht-95-84.ps.gz] [Ph.D. LMU München] 
Schnorbusch, Daniel 1999: Einfache deutsche Verben. Eine syntaktische und semantische Beschreibung der verbalen Simplizia für das elektronische Lexikonsystem CISLEX. Studien zur Informations- und Sprachverarbeitung 1. München: Centrum für Informations- und Sprachverarbeitung. [Ph.D. LMU München] 
Thalmeier, Karin 2006: Die semantische Klassifikation der Adjektive des Deutschen für das elektronische Wörterbuch CISLEX. Studien zur Informations- und Sprachverarbeitung 11. München: CIS. [Ph.D. LMU München]
Language Native name Language Family IETF ISO 639-2 ISO 639-1
Greek (ancient) Αρχαία Ελληνικα Indo-European grc grc

Corpora

  • Gregory of Nazianzus, Discourses X and XII (IVe s. PCN). Migne's Patrologia Graeca, vol. 35, col. 828-832; 844-839 (1.905 words)

Dictionaries

  • 280,733 simple forms (April 2006)

References

Gérard, Raphaël; Kindt, Bastien. 2004. D'un dictionnaire de lemmatisation (D.A.G.) à un dictionnaire dérivationnel du grec ancien (D.D.G.). Le poids des mots. Actes des 7èmes Journées internationales d'Analyse statistique des Données Textuelles, 10-12 mars 2004, ed. A. Dister, C. Fairon, G. Purnelle, vol. 1: 488-495, Louvain-la-Neuve.
Kevers, Laurent; Kindt, Bastien. 2004, Vers un concordanceur-lemmatiseur en ligne du grec ancien. L'Antiquité Classique, 73: 203-213.
Kevers, Laurent; Kindt, Bastien. 2005. Traitement automatisé de l’ambiguïté lexicale en grec ancien. Première approche par application de grammaires locales. Lingvisticae Investigationes, 28: 235-254.
Kindt, Bastien. 2003. Avancées dans le traitement automatique du grec ancien à l'U.C.L.. L'analyse des textes au service d'une description lexicale de la langue. Une description lexicale de la langue au service de l'analyse des textes. Lexicometrica, numéro spécial «Autour de la lemmatisation» (dir. D. Labbé): 1-17 (cfr http://www.cavi.univ-paris3.fr/lexicometrica/thema/thema1.htm).
Kindt, Bastien; Yannacopoulou, Anastasia. 2006. Literary Words Automatic Recognition in a Modern Greek Corpus. Proceedings of the 7th International Conference on Greek Linguistics (York, 2005). 

More information

Language Native name Language Family IETF ISO 639-2 ISO 639-1
Greek (modern) Ελληνικά Indo-European el ell el

Corpora

  • Journalistic corpus

Dictionaries

  • 360,000 simple words
  • 40,000 compound words

These resources represent about 30% of the whole dictionaries.

References

Simple words

Anastassiadis-Symeonidis, Anna; Kyriacopoulou Tita; Sklavounou Elsa; Thilikos Iasson; Voskaki Rania. 2000. A system for analysing texts in Modern Greek: representing and solving ambiguities. Proceedings of COMLEX 2000, Workshop on Computational Lexicography and Multimedia Dictionaries, 22-23 September 2000, Kato Achaia, Patras.
Constant, Matthieu; Anastasia Yannacopoulou. 2002. Le dictionnaire électronique du grec moderne: Conception et développement d'outils pour son enrichissement et sa validation. Studies in Greek Linguistics, Proceedings of the 23rd annual meeting of the Department of Linguistics, Faculty of Philosophy, Aristotle University of Thessaloniki, 17-19 May 2002, Thessaloniki.
Kazantzi, Dimitra; Nantia Konstenian; Theodora Loïzidou; Polyxeni Pavlidou; Katerina Rizou; Panayota Tampanoglou. 2002. Π?οβλήματα στην αυτόματη κλίση απλών και σ?νθετων ονομάτων. Studies in Greek Linguistics, Proceedings of the 23rd annual meeting of the Department of Linguistics, Faculty of Philosophy, Aristotle University of Thessaloniki, 17-19 May 2002, Thessaloniki.
Kyriacopoulou, Panayota-Tita. 1990a. Les dictionnaires électroniques: la flexion verbale en grec moderne. Thèse de doctorat (Université Paris VIII), Paris.
Kyriacopoulou, Tita. 1990a. Les dictionnaires électroniques : Morphologie et syntaxe. Le cas du grec moderne, Proceedings AILA 1990, Chalcidique.
Kyriacopoulou, Tita. 1990b. Τα ηλεκτ?ονικά λεξικά – Η ?ηματική κλίση: Γενική πα?ουσίαση Studies in Greek Linguistics, Proceedings of the 10th annual meeting of the Department of Linguistics, Faculty of Philosophy, Aristotle University of Thessaloniki, Thessaloniki.
Kyriacopoulou, Tita. 1991. Τα ηλεκτ?ονικά λεξικά. Γλωσσολογικά δεδομένα. Studies in Greek Linguistics, Proceedings of the 11th annual meeting of the Department of Linguistics, Faculty of Philosophy, Aristotle University of Thessaloniki, Thessaloniki.
Kyriacopoulou, Tita. 1992a. Η αυτόματη επεξε?γασία της ?ηματικής κλίσης των Ελληνικών. Studies in Greek Linguistics, Proceedings of the 12th annual meeting of the Department of Linguistics, Faculty of Philosophy, Aristotle University of Thessaloniki, 18-20 April 1991, Thessaloniki.
Kyriacopoulou, Tita. 1992b. Le dictionnaire électronique des verbes grecs: le phénomène de la défectivité. Mémoires CERIL no 8, Paris 7.
Kyriacopoulou, Tita. 1992c. H αυτόματη επεξε?γασία των ελληνικών. Π?ακτικά του διεθνο?ς Συμποσίου για τη σ?γχ?ονη ελληνική γλώσσα, 14-15 Φεβ?ουα?ίου 1992, Σο?βόννη.

Compound words

Kyriacopoulou, Tita. 2002. Un système d'analyse de textes en grec moderne: représentation des noms composés. Actes du 5ème Colloque International de Linguistique Grecque, 13-15 septembre 2001, Sorbonne, Paris.
Kyriacopoulou, Tita; Olympia Tsaknaki. 2002 Ηλεκτ?ονική αναπα?άσταση των πα?οιμιών με πεπε?ασμένα αυτόματα. Studies in Greek Linguistics, Proceedings of the 23rd annual meeting of the Department of Linguistics, Faculty of Philosophy, Aristotle University of Thessaloniki, 17-19 May 2002, Thessaloniki.
Kyriacopoulou, Tita; Safia Mrabti; Anastasia Yannacopoulou. 2002. Le dictionnaire électronique des noms composés en grec moderne. Lingvisticae Investigationes, Amsterdam/Philadelphie.
Mavropoulos, Thanassis; Stella Bakoura. 2002. Ηλεκτ?ονικό λεξικό της ?έας Ελληνικής: αναπα?άσταση των κυ?ίων ονομάτων και ουσιαστικών και επιθέτων που δηλώνουν εθνικότητα. Studies in Greek Linguistics, Proceedings of the 23rd annual meeting of the Department of Linguistics, Faculty of Philosophy, Aristotle University of Thessaloniki, 17-19 May 2002, Thessaloniki.
Tsaknaki, Olympia. 2000a. Electronic dictionary of proverbs. Proceedings of COMLEX 2000, Workshop on Computational Lexicography and Multimedia Dictionaries, 22-23 September 2000, Kato Achaia, Patras.
Tsaknaki, Olympia. 2000b. La traduction des noms d'animaux dans les proverbes. Actes du Colloque international «Traduction humaine, Traduction automatique, Interprétation», 28-30 septembre 2000, Tunis.
Voskaki, Rania; Iasson Thilikos. 2002. Αναπα?άσταση των ουσιαστικοποιημένων επιθέτων της ?έας Ελληνικής με διαδικασίες αυτοματισμο? πεπε?ασμένων καταστάσεων. Studies in Greek Linguistics, Proceedings of the 23rd annual meeting of the Department of Linguistics, Faculty of Philosophy, Aristotle University of Thessaloniki, 17-19 May 2002, Thessaloniki.
Voyatzi, Stavroula. 2002. Αυτόματη αναγνώ?ιση των χ?ονικών εκφ?άσεων: ημε?ομηνίες και ώ?ες. Studies in Greek Linguistics, Proceedings of the 23rd annual meeting of the Department of Linguistics, Faculty of Philosophy, Aristotle University of Thessaloniki, 17-19 May 2002, Thessaloniki. 
Language Native name Language Family IETF ISO 639-2 ISO 639-1
Italian Italiano Indo-European it ita it

Corpora

  • I Malavoglia, by Giovanni Verga

Dictionaries

  • 118,000 simple words
  • 32,000 compound words
  • 630 toponyms (simple words)
  • 3255 proper names (simple words)
  • 223 toponyms (compound words)
  • 889 proper names (compound words)

References

Simple words

Monteleone, M., De Bueriis, G. (1995) Dizionario elettronico DELAS_I - DELAF_I ver. 1.0, Dipartimento di Scienze della Comunicazione dell'Università degli Studi di Salerno.
Elia, A. (1995), “Dizionari elettronici e applicazioni informatiche?, in S. Bolasco, L.Lebart., A. Salem, (eds.), JADT 1995, III Giornate internazionali di Analisi Statistica dei Dati Testuali, Roma: CISU.
Vietri, S., A. Elia, (2000), Electronic Dictionaries and Linguistic Analysis of Italian Large Corpora, in Rajman M. & J.C.Chappelier (eds.) JADT 2000 - Actes des 5es Journées internationales d'Analyse statistique des Données Textuelles, 9-11 Mars 2000, Ecole Polytechnique fédérale de Lausanne.
Elia, A., S. Vietri, (2002), L'analisi automatica dei testi e i dizionari elettronici, in E. Burattini, R. Cordeschi, (eds.), Manuale di Intelligenza Artificiale per le Scienze Umane, Roma: Carocci

Compound words

Vietri, S. (1984), On the Study of Idioms in Italian, in AA.VV., Sintassi e morfologia della lingua italiana, Congresso internazionale della Società di Linguistica Italiana, Roma: Bulzoni.
Vietri, S. (1990), On some comparative frozen sentences in Italian, in Lingvisticae Investigationes 14: 1, pp. 149-174, Amsterdam/Philadelphia: John Benjamins.
Elia, A. (1995), Per una disambiguazione semi-automatica di sintagmi composti: i dizionari elettronici lessico-grammaticali, in Cipriani e Bolasco, (ed.), Ricerca qualitativa e computer, Milano: Franco Angeli. 
Language Native name Language Family IETF ISO 639-2 ISO 639-1
Korean 한국어 Koreanic ko kor ko
Language Native name Language Family IETF ISO 639-2 ISO 639-1
Latin Latine Indo-European la lat la

Corpora

  • De Bello Gallico, by Julius Caesar, made available by the Gutenberg Project.

Dictionaries

  • 720,000 simple words in DELAF (Charlton Lewis, Charles Short, 1879), made available by the Perseus Project
Language Native name Language Family IETF ISO 639-2 ISO 639-1
Malagasy Malagasy Austronesian mg mlg mg

Corpora

  • Diwersy, Sascha (2009-), Corpus journalistique du malgache contemporain, Romance Philology Department, University of Cologne.

Dictionaries

  • 801 simple verbs in DEMA-VS
  • 55 invariable words in DEMA-INVflx

References

Ranaivoarison, Joro Ny Aina (2014). Modélisation de la morphosyntaxe du malgache. Construction d'un dictionnaire électronique des verbes simples. Thèse de doctorat, Université d'Antananarivo, 510 pages
Ranaivoarison, Joro Ny Aina; Laporte, Éric; Ralalaoherivony, Baholisoa Simone (2013). Formalization of Malagasy conjugation. Language and Technology Conference, Poznan, Poland. pp.457-462
Language Native name Language Family IETF ISO 639-2 ISO 639-1
Norwegian Bokmål Norsk bokmål Indo-European no nob nb

Corpora

  • Folkeeventyr

Dictionaries

  • 51,000 simple words
  • 640 compound words
Language Native name Language Family IETF ISO 639-2 ISO 639-1
Norwegian Nynorsk Norsk nynorsk Indo-European nn nno nn

Corpora

  • Klimarapport
Language Native name Language Family IETF ISO 639-2 ISO 639-1
Polish Polski Indo-European pl pol pl

Corpora

  • Elektronika
Language Native name Language Family IETF ISO 639-2 ISO 639-1
Portuguese (Portugal) Português (Portugal) Indo-European pt-BR

Corpora

  • A Senhora, by José Manuel de Alencar

Dictionaries

  • 880,000 simple words
  • 4,100 compound words

References

Marcelo C.M. Muniz, Maria das Graças V. Nunes, Eric Laporte, 2005. "UNITEX-PB, a set of flexible language resources for Brazilian Portuguese", in Proceedings of the Workshop on Technology on Information and Human Language (TIL), São Leopoldo (Brésil): Unisinos, pp. 2059-2068.
Muniz, Marcelo Caetano Martins, 2003. Léxicos Computacionais: Desafios na Construção de um Léxico de Português Brasileiro. Monographie de qualification. Instituto de Ciências Matemáticas de São Carlos, NILC, Université de São Paulo. 50p.
Muniz, Marcelo Caetano Martins, 2004, A construção de recursos lingüístico-computacionais para o português do Brasil: o projeto Unitex-PB. Mémoire de mestrado, NILC, Université de São Paulo, 72 p.
Muniz, Marcelo Caetano Martins, & Maria das Graças Volpe NUNES, 2004, A construção de recursos lingüístico-computacionais para o português do Brasil: o projeto Unitex-PB. NILC, Université de São Paulo, 12 p.
Oliveira Neto, Miguel Raimundo; Layane Garcia de Souza. 1996. Construção de um Dicionário Eletrônico para o Português do Brasil, Trabalho de conclusão de curso (Graduação), Ciências da Computação, UFG - Universidade Federal de Goiás.
Vale, Oto Araujo. 1990. Dictionnaire électronique des conjugaisons des verbes du portugais du Brésil, Rapport Technique du LADL n° 27, Paris: Université Paris 7.

More information

Language Native name Language Family IETF ISO 639-2 ISO 639-1
Portuguese (Brazil) Português (Brasil) Indo-European pt-PT

Corpora

  • Os Pobres, by Raul Brandão

Dictionaries

  • 940,000 simple words
  • 11,000 compound words

References

Eleutério, Samuel; Elisabete Ranchhod; Jorge Baptista; Helena Freire (1995), A System of Electronic Dictionaries of Portuguese, Lingvisticae Investigationes, XIX: 1, pp. 57-82, Amsterdam/Philadelphia: John Benjamins Publishing Company.
Ranchhod, Elisabete; Cristina Mota; Jorge Baptista (1999), A Computational Lexicon of Portuguese for Automatic Text Parsing. In Proceedings of SIGLEX'99: Standardizing Lexical Resources, 37th Annual Meeting of the ACL, pp. 74-81, College Park, Maryland, USA. [download]
Carvalho, Paula and Elisabete Ranchhod (2003), Analysis and Disambiguation of Nouns and Adjectives in Portuguese by FST. In Proceedings of the Workshop on Finite-State Methods in Natural Language Processing, pp. 105-112, EACL?03, Budapest, Hungary. [download]
Ranchhod, Elisabete; Paula Carvalho; Cristina Mota; A. Barreiro (2004), Portuguese Large-scale Language Resources for NLP Applications. In Lino, Maria Teresa; M. F. Xavier; F. Ferreira; R. Costa; R. Silva (Eds.), Proceedings of the IV Conference on Language Resources and Evaluation, LREC, pp. 1755-1759, Lisboa.
Mota, Cristina; Paula Carvalho; Elisabete Ranchhod (2004), Multiword Lexical Acquisition and Dictionary Formalization. In Proceedings of the Workshop Enhancing and Using Electronic Dictionaries, Coling'2004, pp. 73-77, Geneva, Switzerland. [download]
Ranchhod, Elisabete M. (2005), Using Corpora to Increase Portuguese MWU Dictionaries. Tagging MWU in a Portuguese Corpus. In Proceedings from the Corpus Linguistics Conference Series, Vol. 1, no. 1, University of Birmingham. 

More information

Language Native name Language Family IETF ISO 639-2 ISO 639-1
Russian Русский Indo-European ru rus ru

Corpora

  • The Gambler, by Fiodor Dostoyevsky

Dictionaries

  • 9,800 entries (260,000 distinct forms) are included in Unitex/GramLab.
  • The whole lexicon contains:
    • 140,000 simple entries (= 2,7 millions distinct forms)
    • 160,000 proper nouns (= 840,000 distinct forms)
    • 1800 compound words

The dictionary is an extract of the Russian computational morphological dictionary developed at CIS, Munich. This extract contains about 15% of the original dictionary (the most frequent lemmata). If you want to use the full version of the lexicon, please contact Sebastian Nagel at wastl at cis.uni-muenchen.de

References

Nagel, Sebastian 2002: Formenbildung im Russischen. Formale Beschreibung und Automatisierung für das CISLEX-Wörterbuchsystem.
Language Native name Language Family IETF ISO 639-2 ISO 639-1
Serbian-Cyrillic Српски Indo-European sr-Cyrl sro sr

Corpora

  • the Serbian translation of Voltaire's Candide

Dictionaries

  • 88,753 simple word forms
  • 10,288 compound word forms
  • The whole dictionary contains:
    • 3,753,750 simple entries
    • 214,295 compound words
  • A dictionary-graph for recognition and normalization of multiword numerals
Language Native name Language Family IETF ISO 639-2 ISO 639-1
Serbian-Latin Српски (латиница) Indo-European sr-Latn srm

Corpora

  • the Serbian translation of Voltaire's Candide

Dictionaries

  • 88,753 simple word forms
  • 10,288 compound word forms
  • The whole dictionary contains:
    • 3,753,750 simple entries
    • 214,295 compound words
  • A dictionary-graph for recognition and normalization of multiword numerals
Language Native name Language Family IETF ISO 639-2 ISO 639-1
Spanish Español Indo-European es spa es

Corpora

  • Trafalgar, by Benito Pérez Galdós

Dictionaries

  • 638,000 simple words

References

Blanco, X. (2001): "Dictionnaires électroniques et traduction automatique français-espagnol", Langages 143 (Lexicologie contrastive
espagnol-français), Larousse: Paris.
Blanco, X. (2000): "Les dictionnaires électroniques de l'espagnol (DELASs et DELACs)", Lingvisticae Investigationes XXIII: 2, Amsterdam/Philadelphia:Benjamins.
Blanco, X. (2000): "Verbos soporte y clases de predicados en español",
Lingüística Española Actual, Madrid: Arcos Libros.
Guenthner, F., Blanco, X. : "Multi-lexemic Expressions: An Overview", Lingvisticae Investigationes Suplementa, Amsterdam/Philadelphia:Benjamins.
Blanco, X.; Català, D. (1999): "Quelques remarques sur un dictionnaire
électronique d'adverbes composés en espagnol", Lingvisticae Investigationes XXII, Amsterdam: John Benjamins.
Blanco, X. (1997): "Noms composés et traduction français-espagnol", Lingvisticae Investigationes XXI:1, Amsterdam/Philadelphia: Benjamins.
Language Native name Language Family IETF ISO 639-2 ISO 639-1
Thai ไทย Tai–Kadai th tha th

Corpora

  • extract from the novel Si Phan Din

Dictionaries

  • 33,000 simple
  • 100 compound words