Semalt: Chiroyli sho'rva bilan veb-sahifalardan URL-larni chiqarish

Chiroyli sho'rva - bu XML va HTML hujjatlarini tahlil qilish uchun ishlatiladigan yuqori darajadagi Python to'plami. Chiroyli sho'rva Python kutubxonasi HyperText Markup Language (HTML) dan foydali ma'lumotlarni olish uchun foydalaniladigan sintaktik daraxt yaratadi. Ushbu kutubxona Python 2 va Python 3 versiyalari uchun mavjud.

Ko'pgina hollarda, siz maqsadli ma'lumotlaringizga kirish va veb-sahifaning bir qismi sifatida foydalanish mumkinligini topasiz. Bunday holda, tahlil qilinadigan formatlarda ma'lumotlarni chiqarib yuboradigan bunday veb-qirqish texnikasidan foydalanish kerak. Bu erda chiroyli sho'rva kutubxonasi keladi.

Talablar

Chiroyli sho'rva kutubxonasidan foydalanish uchun sizga to'g'ri modullar kerak. Boshlash uchun siz Python 2.7 dasturlash tilini kompyuteringizga o'rnatishingiz kerak. Ushbu xabarda siz so'rovlar va chiroyli sho'rva 4-dan foydalanib veb-saytni qanday qilib qirib tashlashni va barcha URL-larni ajratib olishni o'rganasiz. HTML-ni tahlil qilish bu o'zingizning vazifangiz, ayniqsa Beautiful Soup-ning texnik yordami bilan.

Nega chiroyli sho'rvadan foydalanish kerak?

Beautiful Soup - bu 2004 yildan beri veb-saytlarni qirib tashlash va HTML teglarini tahlil qilish uchun ishlatiladigan Python to'plami. Yaqinda Beautiful Soup 4 bu sohada Beautiful Soup 3 o'rnini egalladi. E'tibor bering, BS4 ikkala Python versiyasida ishlaydi, BS3 esa faqat Python 2.7-da ishlaydi. Kutubxona quyidagi ichki xususiyatlardan iborat:

  • Kodlash imkoniyati - Kerakli chiroyli sho'rva modullarini mashinangizga o'rnatganingizdan so'ng, kodlashdan vahimaga tushishingiz shart emas. Kutubxona kirishlarni "Unicode" ga va "UTF-8" ga ulanish uchun avtomatlashtirilgan.
  • Navigatsiya qobiliyati - Chiroyli sho'rva sintaktik tahlil daraxti qidirish, navigatsiya va o'zgartirish usullaridan foydalanishni osonlashtiradi.

Chiroyli sho'rva kutubxonasidan qanday foydalanish kerak?

Chiroyli sho'rva kompyuteringizga o'rnatilgandan so'ng siz kutubxonadan foydalanishni boshlashingiz mumkin. Boshlash uchun, Python kodini boshida bs4 kutubxonasini import qiling. Sho'rva ob'ekti yaratish uchun tarkibni yoki URL-ni chiroyli sho'rvaga yuboring. Ammo kutubxona maqsadli veb-sahifani o'ziga yuklamaydi. Bu erda siz ushbu vazifani qo'lda bajarishingiz kerak. Siz shuningdek Python va Beautiful Sho'rva kombinatsiyasidan foydalanib afzal qilingan veb-sahifalarni osongina olishingiz mumkin.

Talablar kutubxonasining vazifalari

Bir varaqni qirib tashlash uchun avval uni yuklab olishingiz kerak. Siz so'rovlar kutubxonasidan foydalanib veb-sahifalarni yuklab olishingiz mumkin. Veb-serverlarga "GET" so'rovini yuborish orqali kutubxona ishini talab qiladi, bu esa o'z navbatida afzal veb-sahifaning HTML tarkibini yuklab oladi.

Veb-sahifalardan URL-larni ajratib olish

Endi siz chiroyli sho'rva kutubxonasi haqida batafsil ma'lumotga egasiz. BS4 kutubxonasi va Python kombinatsiyasi veb-sahifani tezda topishga yordam beradi. Barcha URL manzillarini maqsadli veb-sahifangizdan chiqarib olish uchun "barchasini topish" usulidan foydalaning. Ushbu usul sizga teglar bilan elementlar to'plamini beradi. Bs4-dan ikkala Chiroyli sho'rva va so'rovlarni import qiling. Kodingizni ishga tushiring va URL-manzillarni olish uchun veb-sayt yoki veb-sahifani kiriting.

mass gmail