Construcción de un algoritmo no supervisado para clasificación de pymes en base al contenido de su página web (web-scrapping).

tipo de documento semantico ckh_publication

Ficheros

Resumen Trabajo Fin de Máster

TFM.pdf

Tamaño 1741151

Formato Adobe PDF

Url del contenido https://repositorio.comillas.edu/rest/bitstreams/623111/retrieve

Fecha de publicación 00/00/2023

Director/Coordinador

Roussel, Marion

Autor

Zaldívar Lobato, Luis

Resumen

Idioma es-ES

Resumen

El proyecto consiste en la construcción de un algoritmo de clasificación no supervisado para clasificar pequeñas y medianas empresas (pymes) en función del contenido de sus páginas web. Se están utilizando técnicas de procesamiento de lenguaje natural (NLP) para analizar los datos en PySpark. El objetivo es agrupar las pymes en categorías relevantes y útiles que permitan identificar sectores con potencial de crecimiento.

El enfoque principal es crear una forma automatizada y escalable de clasificar pymes. De esta forma, el algoritmo se puede lanzar en distintos países permitiendo conocer de una forma más detallada los sectores económicos existentes.

Para ello se necesitan datos de Web Scrapping de las páginas web de todas las empresas de interés. Una vez obtenidos, se extrae la información relevante de cada una de ellas. Así se puede cuantificar mediante modelos matemáticos qué empresas se parecen a otras, y de esta manera agruparlas en un mismo sector.

Tras la construcción de las categorías se les añade un nombre a cada una de ellas, utilizando la información más importante que comparten las pymes que la componen.

En resumen, la clasificación aporta información de valor a analistas interesados en invertir en las pymes, pudiendo analizarlas en conjunto en lugar de individualmente. Esta visión más globalizada permite detectar ciertas tendencias de crecimiento muy interesantes en el mundo del inversor.

Idioma en-GB

Resumen

The project consists of building an unsupervised classification algorithm to classify small and medium-sized enterprises (SMEs) based on the content of their websites. Natural Language Processing (NLP) techniques are being used to analyze the data in PySpark. The goal is to group SMEs into relevant and useful categories that allow the identification of sectors with growth potential.

The main focus is to create an automated and scalable way of classifying SMEs. This way, the algorithm can be deployed in different countries, providing a more detailed understanding of existing economic sectors.

To achieve this, web scraping data is needed from the websites of all the target companies. Once obtained, relevant information is extracted from each of them. This allows quantifying, using mathematical models, which companies are similar to each other and thus grouping them into the same sector.

After constructing the categories, each of them is assigned a name, using the most important information shared by the SMEs within the category.

In summary, the classification provides valuable information to analysts interested in investing in SMEs, allowing them to analyze them collectively rather than individually. This more globalized perspective enables the detection of interesting growth trends in the investor's world.

Uri identificador http://hdl.handle.net/11531/78530

Titulación/Programa

Máster en Big Data. Tecnología y Analítica Avanzada/Master in Big Data Technologies and Advanced Analytics

Centro

Escuela Técnica Superior de Ingeniería (ICAI)

Códigos UNESCO CyT

Palabras clave

Idioma es-ES

Tag NLP

Idioma es-ES

Tag Clasificación no supervisada

Idioma en-GB

Tag NLP

Idioma en-GB

Tag Unsupervised clustering

Tipo de archivo application/pdf

Idioma es-ES

Tipo de acceso info:eu-repo/semantics/closedAccess

Licencia http://creativecommons.org/licenses/by-nc-nd/3.0/us/

Fecha de modificacion 28/08/2023

Fecha de disponibilidad 30/05/2023

fecha de alta 30/05/2023

Send link

Editors: Comillas , Administradores CKH · Universidad de Comillas

Shared with:

CKH Explorer