Web crawling dla celów lingwistycznych. Wybrane aspekty gromadzenia i analizy danych tekstowych na przykładzie rosyjskojęzycznych newsów internetowych

Daniel Borysowski

doi:10.31648/pj.6838

Web crawling dla celów lingwistycznych. Wybrane aspekty gromadzenia i analizy danych tekstowych na przykładzie rosyjskojęzycznych newsów internetowych

Prace Językoznawcze ◽

10.31648/pj.6838 ◽

2021 ◽

Vol 23 (3) ◽

pp. 87-104

Author(s):

Daniel Borysowski

Keyword(s):

Web Crawling

Autor niniejszego artykułu zgromadził ok. 2,7 mln rosyjskojęzycznych newsów internetowych.Zasadnicze cele tego tekstu stanowią: omówienie pojęcia web crawlinguw odniesieniu do pozyskiwania internetowych danych tekstowych, omówienie kwestiistrukturyzacji takich danych w nieanotowanych korpusach tekstowych, a także przedstawieniewybranych aspektów analizy danych strukturyzowanych w ten sposób. Autorrozpatruje newsy internetowe jako połączenie tekstu zasadniczego oraz identyfikującychi charakteryzujących go metadanych (wyróżnionych podczas automatycznej ich ekscerpcjize stron internetowych). Rozdział newsów na tekst zasadniczy i metadane stwarzamożliwość przeprowadzenia ich analizy z dwóch perspektyw – tekstowej oraz metainformacyjnej(dodatkowo, np. w odniesieniu do badań chronologizacyjnych, z perspektywyuwzględniającej oba te poziomy). Zarys możliwych badań lingwistycznych zgromadzonegomateriału uzupełnia autor ewaluacją wybranych wielowyrazowych całostek, wydobytychz tych tekstów z wykorzystaniem delimitacyjnej funkcji cudzysłowu.

Download Full-text

A Proposal Of Deep Web Crawling System By Using Breath-First Approach

10.34279/0923-009-002-004 ◽

2018 ◽

pp. 48

Author(s):

Israa Tahseen ◽

Duaa Salim

Keyword(s):

Deep Web ◽

Web Crawling

Download Full-text

WAN-Based Distributed Web Crawling

Journal of Software ◽

10.3724/sp.j.1001.2010.03725 ◽

2010 ◽

Vol 21 (5) ◽

pp. 1067-1082 ◽

Cited By ~ 7

Author(s):

Xiao XU ◽

Wei-Zhe ZHANG ◽

Hong-Li ZHANG ◽

Bin-Xing FANG

Keyword(s):

Web Crawling

Download Full-text

PolarHub: A large-scale web crawling engine for OGC service discovery in cyberinfrastructure

Computers Environment and Urban Systems ◽

10.1016/j.compenvurbsys.2016.07.004 ◽

2016 ◽

Vol 59 ◽

pp. 195-207 ◽

Cited By ~ 14

Author(s):

Wenwen Li ◽

Sizhe Wang ◽

Vidit Bhatia

Keyword(s):

Service Discovery ◽

Large Scale ◽

Web Crawling

Download Full-text

Integrating expert knowledge and multilingual web crawling data in a lead qualification system

Decision Support Systems ◽

10.1016/j.dss.2015.12.002 ◽

2016 ◽

Vol 82 ◽

pp. 69-78 ◽

Cited By ~ 18

Author(s):

J. D’Haen ◽

D. Van den Poel ◽

D. Thorleuchter ◽

D.F. Benoit

Keyword(s):

Expert Knowledge ◽

Web Crawling

Download Full-text

Determinants of Residential Environment Satisfaction in the Second-Generation New Towns of the Seoul Metropolitan Area Using Web Crawling and Text Mining

Journal of Korea Planning Association ◽

10.17208/jkpa.2020.12.55.7.5 ◽

2020 ◽

Vol 55 (7) ◽

pp. 5-20

Author(s):

Sunjae Kim ◽

Sugie Lee

Keyword(s):

Text Mining ◽

Metropolitan Area ◽

Second Generation ◽

Residential Environment ◽

Web Crawling ◽

New Towns ◽

Seoul Metropolitan Area

Download Full-text

Detecting near-duplicates for web crawling

Proceedings of the 16th international conference on World Wide Web - WWW '07 ◽

10.1145/1242572.1242592 ◽

2007 ◽

Cited By ~ 214

Author(s):

Gurmeet Singh Manku ◽

Arvind Jain ◽

Anish Das Sarma

Keyword(s):

Web Crawling

Download Full-text

Web Crawling and Processing with Limited Resources for Business Intelligence and Analytics Applications

Journal of Software ◽

10.17706/jsw.13.5.300-316 ◽

2018 ◽

Vol 13 (5) ◽

pp. 300-316

Author(s):

Loredana M. Genovese ◽

◽

Filippo Geraci

Keyword(s):

Business Intelligence ◽

Limited Resources ◽

Web Crawling

Download Full-text

Using HMM to learn user browsing patterns for focused Web crawling

Data & Knowledge Engineering ◽

10.1016/j.datak.2006.01.012 ◽

2006 ◽

Vol 59 (2) ◽

pp. 270-291 ◽

Cited By ~ 31

Author(s):

Hongyu Liu ◽

Jeannette Janssen ◽

Evangelos Milios

Keyword(s):

Web Crawling ◽

Focused Web Crawling

Download Full-text

A Word Embedding Based Approach for Focused Web Crawling Using the Recurrent Neural Network

International Journal of Interactive Multimedia and Artificial Intelligence ◽

10.9781/ijimai.2020.09.003 ◽

2020 ◽

Vol In Press (In Press) ◽

pp. 1

Author(s):

P. R. Joe Dhanith ◽

B. Surendiran ◽

S. P. Raja

Keyword(s):

Neural Network ◽

Recurrent Neural Network ◽

Word Embedding ◽

Web Crawling ◽

Focused Web Crawling

Download Full-text

On the Stability of Web Crawling and Web Search

Algorithms and Computation - Lecture Notes in Computer Science ◽

10.1007/978-3-540-92182-0_60 ◽

2008 ◽

pp. 680-691 ◽

Cited By ~ 1

Author(s):

Reid Anderson ◽

Christian Borgs ◽

Jennifer Chayes ◽

John Hopcroft ◽

Vahab Mirrokni ◽

...

Keyword(s):

Web Search ◽

Web Crawling ◽

The Stability

Download Full-text