Перайсці да зместу

Beautiful Soup (парсер HTML)

З Вікіпедыі, свабоднай энцыклапедыі
Beautiful Soup
Тып бібліятэка
Напісана на Python[2]
Апошняя версія
  • 4.12.3 (17 студзеня 2024)[1]
Ліцэнзія ліцэнзія MIT[d]
Сайт crummy.com/software/Beau…

Beautiful Soup — гэта пакет Python для разбору HTML і XML дакументаў (у тым ліку з няправільнай разметкай, напрыклад з незачыненымі тэгамі). Ён стварае дрэва парсінгу, якое можна выкарыстоўваць для вымання даных з HTML, што карысна для вэб-скрапінгу[3][4].

Beautiful Soup быў створаны Леанардам Рычардсанам[5][6].

Beautiful Soup прадстаўляе разабраныя даныя ў выглядзе дрэва, па якім можна ажыццяўляць пошук і ітэрацыю з дапамогай звычайных цыклаў Python[7]. Прыклад ніжэй выкарыстоўвае стандартную бібліятэку Python requests для загрузкі галоўнай старонкі англійскай Вікіпедыі, а затым выкарыстоўвае Beautiful Soup для разбору дакумента і пошуку ўсіх спасылак у ім[8].

#!/usr/bin/env python3
# Выманне якароў з HTML-дакумента
import requests
from bs4 import BeautifulSoup
url = 'https://en.wikipedia.org/wiki/Main_Page'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
for anchor in soup.find_all('a'):
    print(anchor.get('href', '/'))

Beautiful Soup 3 быў афіцыйным рэлізам Beautiful Soup з траўня 2006 па сакавік 2012 гады. Бягучы рэліз — Beautiful Soup 4.x. Beautiful Soup 4 можа быць усталяваны з дапамогай pip install beautifulsoup4.

У 2021 годзе падтрымка Python 2.7 была спынена, і рэліз 4.9.3 стаў апошнім, які яго падтрымлівае[9].

  1. Changelog Праверана 18 студзеня 2024.
  2. The p_10784 Open Source Project on Open Hub: Languages Page — 2006. Праверана 26 верасня 2018.
  3. «Beautiful Soup website». Retrieved 18 April 2012. Beautiful Soup is licensed under the same terms as Python itself
  4. Python. Beautiful Soup: Build a Web Scraper With Python – Real Python (англ.). realpython.com. Праверана 1 чэрвеня 2023.
  5. Code : Leonard Richardson (англ.). Launchpad. Праверана 19 верасня 2020.
  6. Tidelift. beautifulsoup4 | pypi via the Tidelift Subscription (англ.). tidelift.com. Праверана 19 верасня 2020.
  7. How To Scrape Web Pages with Beautiful Soup and Python 3 | DigitalOcean (англ.). www.digitalocean.com. Праверана 1 чэрвеня 2023.
  8. Python. Python's urllib.request for HTTP Requests – Real Python (англ.). realpython.com. Праверана 1 чэрвеня 2023.
  9. Richardson. Beautiful Soup 4.10.0 (англ.). beautifulsoup. Google Groups (7 верасня 2021). Праверана 27 September 2022.