Skip to content

Latest commit

 

History

History
53 lines (43 loc) · 3.06 KB

File metadata and controls

53 lines (43 loc) · 3.06 KB

Paquete: web_scraping

Descripción del paquete

El paquete web_scraping contiene una colección de módulos para realizar web scraping de páginas HTML. Utiliza tanto técnicas básicas con expresiones regulares como el popular módulo BeautifulSoup para facilitar la extracción de datos relevantes de contenido web.

Tecnologías utilizadas

  • Python: Lenguaje de programación utilizado para el desarrollo del paquete.
  • BeautifulSoup: Biblioteca para el análisis de documentos HTML y XML.
  • urllib3: Biblioteca para realizar solicitudes HTTP.

Utilidad del paquete

El paquete web_scraping permite a los usuarios:

  • Extraer datos específicos de páginas web, como listas y títulos.
  • Procesar contenido HTML local y remoto de manera eficiente.
  • Manejar solicitudes HTTP para obtener el contenido de diferentes URLs.

Estructura del paquete

El paquete web_scraping contiene los siguientes módulos:

  • expresiones_regulares.py: Funciones que utilizan expresiones regulares para procesar contenido de archivos HTML locales.
  • expresiones_regulares2.py: Extrae elementos <li> de una página web utilizando expresiones regulares.
  • parsear_contenido_sin_modulos.py: Implementa la clase GobeaSoup para manejar solicitudes HTTP y análisis de páginas web.
  • parsear_facil.py: Extrae elementos <li> de un archivo HTML local sin módulos adicionales.
  • sin_modulos.py: Realiza una solicitud HTTP y guarda el contenido HTML en un archivo local.
  • titulos_web.py: Extrae los elementos <title> de un archivo HTML.
  • using_bs.py: Utiliza BeautifulSoup para extraer URLs de scripts de una página web.

Package: web_scraping

Package Description

The web_scraping package contains a collection of modules for web scraping HTML pages. It uses both basic techniques with regular expressions and the popular BeautifulSoup module to facilitate the extraction of relevant data from web content.

Technologies Used

  • Python: The programming language used for package development.
  • BeautifulSoup: Library for parsing HTML and XML documents.
  • urllib3: Library for making HTTP requests.

Package Utility

The web_scraping package allows users to:

  • Extract specific data from web pages, such as lists and titles.
  • Efficiently process local and remote HTML content.
  • Handle HTTP requests to obtain content from various URLs.

Package Structure

The web_scraping package includes the following modules:

  • expresiones_regulares.py: Functions that use regular expressions to process content from local HTML files.
  • expresiones_regulares2.py: Extracts <li> elements from a web page using regular expressions.
  • parsear_contenido_sin_modulos.py: Implements the GobeaSoup class to handle HTTP requests and analyze web pages.
  • parsear_facil.py: Extracts <li> elements from a local HTML file without additional modules.
  • sin_modulos.py: Makes an HTTP request and saves the HTML content to a local file.
  • titulos_web.py: Extracts <title> elements from an HTML file.
  • using_bs.py: Uses BeautifulSoup to extract script URLs from a web page.