scholarly journals Web crawling dla celów lingwistycznych. Wybrane aspekty gromadzenia i analizy danych tekstowych na przykładzie rosyjskojęzycznych newsów internetowych

2021 ◽  
Vol 23 (3) ◽  
pp. 87-104
Author(s):  
Daniel Borysowski
Keyword(s):  

Autor niniejszego artykułu zgromadził ok. 2,7 mln rosyjskojęzycznych newsów internetowych.Zasadnicze cele tego tekstu stanowią: omówienie pojęcia web crawlinguw odniesieniu do pozyskiwania internetowych danych tekstowych, omówienie kwestiistrukturyzacji takich danych w nieanotowanych korpusach tekstowych, a także przedstawieniewybranych aspektów analizy danych strukturyzowanych w ten sposób. Autorrozpatruje newsy internetowe jako połączenie tekstu zasadniczego oraz identyfikującychi charakteryzujących go metadanych (wyróżnionych podczas automatycznej ich ekscerpcjize stron internetowych). Rozdział newsów na tekst zasadniczy i metadane stwarzamożliwość przeprowadzenia ich analizy z dwóch perspektyw – tekstowej oraz metainformacyjnej(dodatkowo, np. w odniesieniu do badań chronologizacyjnych, z perspektywyuwzględniającej oba te poziomy). Zarys możliwych badań lingwistycznych zgromadzonegomateriału uzupełnia autor ewaluacją wybranych wielowyrazowych całostek, wydobytychz tych tekstów z wykorzystaniem delimitacyjnej funkcji cudzysłowu.

2010 ◽  
Vol 21 (5) ◽  
pp. 1067-1082 ◽  
Author(s):  
Xiao XU ◽  
Wei-Zhe ZHANG ◽  
Hong-Li ZHANG ◽  
Bin-Xing FANG
Keyword(s):  

2016 ◽  
Vol 82 ◽  
pp. 69-78 ◽  
Author(s):  
J. D’Haen ◽  
D. Van den Poel ◽  
D. Thorleuchter ◽  
D.F. Benoit

2006 ◽  
Vol 59 (2) ◽  
pp. 270-291 ◽  
Author(s):  
Hongyu Liu ◽  
Jeannette Janssen ◽  
Evangelos Milios

Author(s):  
Reid Anderson ◽  
Christian Borgs ◽  
Jennifer Chayes ◽  
John Hopcroft ◽  
Vahab Mirrokni ◽  
...  

Sign in / Sign up

Export Citation Format

Share Document