Web crawling dla celów lingwistycznych. Wybrane aspekty gromadzenia i analizy danych tekstowych na przykładzie rosyjskojęzycznych newsów internetowych
Autor niniejszego artykułu zgromadził ok. 2,7 mln rosyjskojęzycznych newsów internetowych.Zasadnicze cele tego tekstu stanowią: omówienie pojęcia web crawlinguw odniesieniu do pozyskiwania internetowych danych tekstowych, omówienie kwestiistrukturyzacji takich danych w nieanotowanych korpusach tekstowych, a także przedstawieniewybranych aspektów analizy danych strukturyzowanych w ten sposób. Autorrozpatruje newsy internetowe jako połączenie tekstu zasadniczego oraz identyfikującychi charakteryzujących go metadanych (wyróżnionych podczas automatycznej ich ekscerpcjize stron internetowych). Rozdział newsów na tekst zasadniczy i metadane stwarzamożliwość przeprowadzenia ich analizy z dwóch perspektyw – tekstowej oraz metainformacyjnej(dodatkowo, np. w odniesieniu do badań chronologizacyjnych, z perspektywyuwzględniającej oba te poziomy). Zarys możliwych badań lingwistycznych zgromadzonegomateriału uzupełnia autor ewaluacją wybranych wielowyrazowych całostek, wydobytychz tych tekstów z wykorzystaniem delimitacyjnej funkcji cudzysłowu.