Python - Web Scraping
Python Request ve BeautifulSoup Modülü ile Web Scraping Requests modülü internet sitelerine istekte bulunma işlemine yarar. Requets modülü tarayıcı gerekmeksizin sitelere istek yapabilir.İstek sonucunda bize sitenin html kodlarını döndürür. Beautifulsoup modülü ise request modülü ile gelen html kodlarını düzenli bir şekilde göstermeye yarar. Bu modüller python kurulumu ile gömülü şekilde gelmemektedir. Modülleri kullanmak için kurulması gerekmektedir. Web scraping işlemlerini kavramak için, öncelikle web sayfalarının metin tabanlı biçimlendirme dilleri ile oluşturulduğunu anlamak önemlidir. (en yaygın olanı HTML’dir.) Bir biçimlendirme dili, bir web sitesinin içeriğinin yapısını tanımlar. Evrensel bileşenlerin ve işaretleme dillerinin etiketleri bulunduğundan, web kesicilerinin ihtiyaç duyduğu bilgileri almaları çok daha kolay olur. HTML ile ayrıştırma web scraping yalnızca yarısıdır. Bundan sonra scraper daha sonra gerekli verileri alır ve saklar. Veri Kazıma Yöntemleri Veri kazımanın birçok yöntemi vardır. Bunlardan birincisi, gerçek kullanıcı gibi davranan bir bot oluşturup, web sitesinden verinin kazınması, diğeri ise web sitesinin html içeriğinin indirilip, istenilen kısımların ayrıştırılması … bugünkü çalışmada biz html içeriği indirip ayrıştırmayı tercih edeceğiz. Ama kullanıcı girişi, butonlara tıklama gibi kullanıcı işlemleri gerektiren çalışmalarda, bir bot oluşturup işlemleri ona yaptırabiliriz. Python ile Veri Kazımada BeautifulSoup adlı kütüphanesinden yararlanacağız. BeautifulSoup, HTML veya XML dosyalarını işlemek için oluşturulmuş güçlü ve hızlı bir kütüphanedir.
Download
0 formatsNo download links available.