Arabo
AlSulaiti 

Latifa Al-Sulaiti’s List of Arabic Corpora Online

arabiCorpus 

http://arabicorpus.byu.edu

CorpLeipzig 

Leipzig Corpora Collection, corpora per 230 lingue

Leeds 

Leeds Collection of Internet Corpora

Quranic 

Quranic Arabic Corpus

Catalano
CCC 

Corpus del català contemporani: http://www.ub.edu/cccub/

CorpLeipzig 

Leipzig Corpora Collection, corpora per 230 lingue

CTILC 

Corpus Textual Informatizat de la Llengua Catalana (CTILC): http://ctilc.iec.cat/

Cinese
CorpLeipzig 

Leipzig Corpora Collection, corpora per 230 lingue

Leeds 

Leeds Collection of Internet Corpora

Finlandese
AFLC 

The Advanced Finnish Learners’ Corpus: http://www.utu.fi/fi/yksikot/hum/yksikot/suomi-sgr/tutkimus/tutkimushankkeet/las2/Sivut/home.aspx

CorpLeipzig 

Leipzig Corpora Collection, corpora per 230 lingue

HANCO 

HANCO, the Helsinki Annotated Corpus: http://www.ling.helsinki.fi/projects/hanco/index_e.html

kotus 

Corpora dell’Institute for the Languages of Finland: http://www.kotus.fi/collections

Leeds 

Leeds Collection of Internet Corpora

OulunKorpus 

Oulun Korpus (429’058 parole da 5800 testi raccolti da opere letterarie, trascrizioni di trasmissioni radio, pubblicità, quotidiani e articoli di riviste in finlandese): https://kitwiki.csc.fi/twiki/bin/view/FinCLARIN/KielipankkiAineistotOulu

Francese
ARTFL 

ARTFL Project: http://artfl-project.uchicago.edu/projects/LFA/

CORALROM 

Corpus C-ORAL-ROM: campiona il parlato sia formale che informale: http://lablita.dit.unifi.it/coralrom/

CorpLeipzig 

Leipzig Corpora Collection, corpora per 230 lingue

CRFP 

Corpus de Référence du Français parlé: http://sites.univ-provence.fr/delic/corpus/index.html

frantext 

Corpus diacronico, Frantext: http://www.frantext.fr/

Leeds 

Leeds Collection of Internet Corpora

LLAS 

http://www.llas.ac.uk/resources/mb/80, un corpus d’entretiens spontanés

Giapponese
CorpLeipzig 

Leipzig Corpora Collection, corpora per 230 lingue

CSJ 

Corpus of Spontaneous Japanese: http://www.ninjal.ac.jp/english/products/csj/

kotonoha 

BCCWJ: Balanced Corpus of Contemporary Written Japanese (KOTONOHA): http://www.kotonoha.gr.jp/shonagon/

Leeds 

Leeds Collection of Internet Corpora

tahara 

Japanese Speech Corpora of Major City Dialects: http://www.age.ne.jp/x/oswcjlrc/tahara/jcmd.htm

Inglese
ACE 

ACE, Australian Corpus of English: http://icame.uib.no/ace/aceman.htm

BGAHPCOE 

Diacronico: The Brooklyn-Geneva-Amsterdam-Helsinki Parsed Corpus of Old English

BNCOxford 

http://www.natcorp.ox.ac.uk/ (British National Corpus, University of Oxford)

c4l 

http://www.corpora4learning.net/resources/corpora.html, con diversi link ai principali corpora di varietà di inglese.

CEEC 

Diacronico: Corpus of Early English Correspondence (CEEC) http://www.helsinki.fi/varieng/domains/CEEC.html

COLT 

The Bergen Corpus of London Teenage Language (COLT): http://www.hit.uib.no/colt/

CorpLeipzig 

Leipzig Corpora Collection, corpora per 230 lingue

CSPA 

Corpus of Spoken Professional American English: http://www.athel.com/cspa.html

EMEDD 

Corpus diacronico: The Early Modern English Dictionaries Database (EMEDD) http://homes.chass.utoronto.ca/~ian/emedd.html

Kolhapur 

Corpus of Indian English: http://icame.uib.no/kolhapur/kolman.htm

Lampeter 

Diacronico: Lampeter Corpus of Early Modern English http://khnt.hit.uib.no/icame/manuals/LAMPETER/LAMPHOME.HTM

Leeds 

Leeds Collection of Internet Corpora

Lund 

London-Lund Corpus of spoken British English : http://khnt.hit.uib.no/icame/manuals/LONDLUND/INDEX.HTM

Penn 

Diacronico: Penn Corpora of Historical English http://www.ling.upenn.edu/hist-corpora/

Wellington 

Wellington Corpus of Spoken New Zealand English: http://icame.uib.no/wsc/index.htm

Italiano
BAdIP 

BAdIP (Banca Dati dell’Italiano Parlato): http://badip.uni-graz.at/

bibliotecaItaliana 

Biblioteca digitale di testi della letteratura italiana, ricercabili per autore, periodo, genere ed altri parametri: http://www.bibliotecaitaliana.it/

CLIPS 

Corpora e Lessici dell’Italiano Parlato e Scritto (CLIPS): http://www.clips.unina.it/it/corpus.jsp

CoLFIS 

Corpus e lessico di frequenza dell’italiano scritto (CoLFIS): http://www.istc.cnr.it/grouppage/colfis

CORALROM 

Corpus C-ORAL-ROM: campiona il parlato sia formale che informale: http://lablita.dit.unifi.it/coralrom/

CORIS 

CORIS/CODIS: corpus di italiano scritto: http://corpora.dslo.unibo.it/coris_ita.html

CorpLeipzig 

Leipzig Corpora Collection, corpora per 230 lingue

corpusOvi 

Il Corpus dell’italiano antico dell’Opera del Vocabolario Italiano comprende circa 22 milioni di parole da testi in volgare anteriori al 1375: http://www.ovi.cnr.it/index.php?page=banchedati

corpusRepubblica 

Corpus la Repubblica, italiano giornalistico: http://dev.sslmit.unibo.it/corpora/corpus.php?path=&name=Repubblica

corpusTaurinense 

Corpus Taurinense di testi del Duecento (circa 260.000 parole): http://www.bmanuel.org/projects/ct-HOME.html

Gaudio 

Audiolezioni di grammatica da scaricare in formato Mp3: http://www.gaudio.org/lezioni/grammatica/index.htm

itWAC 

Il corpus itWaC comprende testi scaricati con metodi automatici dal web e, contenendo più di un miliardo e mezzo di parole, è il corpus più esteso che esista ad oggi sull’italiano: http://wacky.sslmit.unibo.it

Leeds 

Leeds Collection of Internet Corpora

VALICO 

Il corpus VALICO (Varietà di apprendimento della lingua italiana) consta di circa 570.000 parole da testi di apprendenti di italiano come seconda lingua: http://www.bmanuel.org/projects/br-HOME.html

Nederlandese
CGN 

Spoken Dutch Corpus (Corpus Gesproken Nederlands  – CGN): http://www.mpi.nl/IMDI/overview/Overview_CGN.html

CorpLeipzig 

Leipzig Corpora Collection, corpora per 230 lingue

dutchSemCor 

DutchSemCor Project Homepage : http://www2.let.vu.nl/oz/cltl/dutchsemcor/

GTB 

Diacronico: De Geïntegreerde TaalBank http://gtb.inl.nl/

INLsnt 

INL – Schatkamer van de Nederlandse taal: http://www.inl.nl/

Persiano
bijankhan 

Bijankhan corpus, basato principalmente su testi giornalistici: http://ece.ut.ac.ir/dbrg/bijankhan/

CorpLeipzig 

Leipzig Corpora Collection, corpora per 230 lingue

hamshahri 

Hamshahri Collection, corpus basato su una collezione di testi in persiano standard: http://ece.ut.ac.ir/DBRG/Hamshahri/

UPC 

Uppsala Persian Corpus (derivato dal Bijankhan): http://stp.lingfil.uu.se/~mojgan/UPC.html

Polacco
CorpLeipzig 

Leipzig Corpora Collection, corpora per 230 lingue

IPIPAN 

http://korpus.pl/ Korpus IPI PAN

Leeds 

Leeds Collection of Internet Corpora

NKJP 

Narodowy Korpus Języka Polskiego, http://nkjp.pl/ oppure http://www.nkjp.uni.lodz.pl/

Portoghese e brasiliano
cetemPublico 

Corpus di portoghese giornalistico: http://www.linguateca.pt/cetempublico/

CIPM 

Diacronico: corpus di portoghese medievale: http://cipm.fcsh.unl.pt/

COMPARA 

Corpus parallelo inglese e portoghese: http://www.linguateca.pt/COMPARA/Welcome.html

CORALROM 

Corpus C-ORAL-ROM: campiona il parlato sia formale che informale: http://lablita.dit.unifi.it/coralrom/

CorpLeipzig 

Leipzig Corpora Collection, corpora per 230 lingue

corpusDoPortugues 

Corpus do Português: http://www.corpusdoportugues.org/

Leeds 

Leeds Collection of Internet Corpora

tychoBrahe 

Tycho Brahe Parsed Corpus of Historical Portuguese: http://www.tycho.iel.unicamp.br/~tycho/corpus/index.html

Russo
CorpLeipzig 

Leipzig Corpora Collection, corpora per 230 lingue

Leeds 

Leeds Collection of Internet Corpora

narusco 

National Corpus of Written Russian: http://narusco.ru/

ruscorpora 

Corpus nazionale di russo: www.ruscorpora.ru

Spagnolo
CODEA 

CODEA 2011, documenti di antico spagnolo

CORALROM 

Corpus C-ORAL-ROM: campiona il parlato sia formale che informale: http://lablita.dit.unifi.it/coralrom/

CorpLeipzig 

Leipzig Corpora Collection, corpora per 230 lingue

COSER 

COSER, Corpus Oral y Sonoro del Español Rural

Davies 

Corpus del Español, Mark Davies, Brigham Young University

Leeds 

Leeds Collection of Internet Corpora

raeBanco 

Real Academia, sezione Banco de datos: CORPES XXI (Corpus del Español del Siglo XXI), CDH (Corpus del Nuevo diccionario histórico del español), CREA (Corpus de Referencia del Español Actual), CORDE (Corpus Diacrónico del Español), Fichero General de la Real Academia Española

Tedesco
AGD 

Corpus di lingua parlata dell’IDS (Institut für Deutsche Sprache); è sia diacronico (ordine di grandezza di lustri) che diatopico (in base al luogo di edizione delle testate locali) ed è aggiornato molto di frequente

CorpLeipzig 

Leipzig Corpora Collection, corpora per 230 lingue

IMS 

Lista di corpora presso IMS (Institut für Maschinelle Sprachverarbeitung), Universität Stuttgart

Leeds 

Leeds Collection of Internet Corpora

LIMAS 

LIMAS-Korpus

Ungherese
CorpLeipzig 

Leipzig Corpora Collection, corpora per 230 lingue

HunglishCorp 

Hunglish Corpus, corpus parallelo inglese-ungherese (sentence-aligned)

HungWebCorp 

Hungarian Webcorpus

Morphdb.hu 

morphdb.hu: Hungarian lexical database and morphological grammar

NytudCorp 

www.nytud.hu, da cui si accede a diversi corpora, tra cui l’Hungarian National Corpus, un corpus vastissimo e open access.

Szeged 

Szeged Corpus: a natural language processed Hungarian corpus