SoNaR

SoNaR (STEVIN Nederlandstalig Referentiecorpus) is een corpus bestaande uit 500 miljoen geschreven Nederlandse woorden.

SoNaR werd ontwikkeld als algemeen referentiemiddel voor onderzoeken op het gebied van de Nederlandse taal, taalgebruik, corpuslinguïstiek en computationele taalkunde.^[1]

SoNaR-500

SoNaR-500 is het volledige corpus, waar SoNar-1 en D-Coi deel van uitmaken. SoNaR-500 bevat 500 miljoen woorden, uit een opeenhoping van verschillende soorten teksten, waardoor het corpus volgens de makers evenwichtig en multifunctioneel is: boeken, tijdschriften, brochures, handleidingen, scripties, websites, persberichten, sms-berichten en andere chats. Alleen teksten die vanaf het jaar 1954 zijn verschenen, zijn in het corpus opgenomen. Van deze teksten komt twee derde deel uit Nederland en een derde deel uit Vlaanderen.^[1] De teksten in het SoNaR-500 corpus zijn automatisch ontleed en gelemmatiseerd door middel van een hulpmiddel genaamd FROG.^[2] Ook zijn semiautomatisch vier semantische "lagen" toegevoegd:

benoemde entiteiten (objecten uit de echte wereld)
coreferentiële relaties
semantische rollen
spatiële- en temporele relaties

SoNaR-1

SoNaR-1 bestaat grotendeels uit dezelfde soort teksten als SoNaR-500, maar heeft daarentegen één miljoen woorden. Door de relatief kleine omvang zijn niet alleen de semantische "lagen" zoals hierboven beschreven toegevoegd, maar ook een uitgebreide syntactische analyse, die handmatig is geverifieerd in het Lassy-project.^[3]

D-Coi

Het D-Coi (STEVIN Nederlandstalig Corpus Initiatief) corpus is een testcorpus dat is ontwikkeld om als blauwdruk te fungeren voor het tien keer zo grote SoNaR corpus. Het D-Coi corpus bevat 50 miljoen woorden en is voor een klein deel verrijkt met taalkundige opmerkingen.^[1]

Bronnen, noten en/of referenties

↑ ^a ^b ^c Oostdijk, N., Reynaert, M., Hoste, V., & Schuurman, I. (2013). The construction of a 500-million-word reference corpus of contemporary written Dutch. Essential speech and language technology for Dutch: Results by the STEVIN programme, 219-247
↑ Van den Bosch, A., Busser, G.J., Daelemans, W., and Canisius, S. (2007). An efficient memory-based morphosyntactic tagger and parser for Dutch, In F. van Eynde, P. Dirix, I. Schuurman, and V. Vandeghinste (Eds.), Selected Papers of the 17th Computational Linguistics in the Netherlands Meeting, Leuven, Belgium, pp. 99-114
↑ Van Noord, G., Bouma, G., Van Eynde, F., De Kok, D., Van der Linde, J., Schuurman, I., ... & Vandeghinste, V. (2013). Large scale syntactic annotation of written Dutch: Lassy. Essential speech and language technology for Dutch: results by the STEVIN programme, 147-164

[:0-1] Oostdijk, N., Reynaert, M., Hoste, V., & Schuurman, I. (2013). The construction of a 500-million-word reference corpus of contemporary written Dutch. Essential speech and language technology for Dutch: Results by the STEVIN programme, 219-247

[2] Van den Bosch, A., Busser, G.J., Daelemans, W., and Canisius, S. (2007). An efficient memory-based morphosyntactic tagger and parser for Dutch, In F. van Eynde, P. Dirix, I. Schuurman, and V. Vandeghinste (Eds.), Selected Papers of the 17th Computational Linguistics in the Netherlands Meeting, Leuven, Belgium, pp. 99-114

[3] Van Noord, G., Bouma, G., Van Eynde, F., De Kok, D., Van der Linde, J., Schuurman, I., ... & Vandeghinste, V. (2013). Large scale syntactic annotation of written Dutch: Lassy. Essential speech and language technology for Dutch: results by the STEVIN programme, 147-164

[1]