Construcción de un algoritmo no supervisado para clasificación de pymes en base al contenido de su página web (web-scrapping).
tipo de documento semantico ckh_publication
Ficheros
Resumen
El proyecto consiste en la construcción de un algoritmo de clasificación no supervisado para clasificar pequeñas y medianas empresas (pymes) en función del contenido de sus páginas web. Se están utilizando técnicas de procesamiento de lenguaje natural (NLP) para analizar los datos en PySpark. El objetivo es agrupar las pymes en categorías relevantes y útiles que permitan identificar sectores con potencial de crecimiento.
El enfoque principal es crear una forma automatizada y escalable de clasificar pymes. De esta forma, el algoritmo se puede lanzar en distintos países permitiendo conocer de una forma más detallada los sectores económicos existentes.
Para ello se necesitan datos de Web Scrapping de las páginas web de todas las empresas de interés. Una vez obtenidos, se extrae la información relevante de cada una de ellas. Así se puede cuantificar mediante modelos matemáticos qué empresas se parecen a otras, y de esta manera agruparlas en un mismo sector.
Tras la construcción de las categorías se les añade un nombre a cada una de ellas, utilizando la información más importante que comparten las pymes que la componen.
En resumen, la clasificación aporta información de valor a analistas interesados en invertir en las pymes, pudiendo analizarlas en conjunto en lugar de individualmente. Esta visión más globalizada permite detectar ciertas tendencias de crecimiento muy interesantes en el mundo del inversor.
The project consists of building an unsupervised classification algorithm to classify small and medium-sized enterprises (SMEs) based on the content of their websites. Natural Language Processing (NLP) techniques are being used to analyze the data in PySpark. The goal is to group SMEs into relevant and useful categories that allow the identification of sectors with growth potential.
The main focus is to create an automated and scalable way of classifying SMEs. This way, the algorithm can be deployed in different countries, providing a more detailed understanding of existing economic sectors.
To achieve this, web scraping data is needed from the websites of all the target companies. Once obtained, relevant information is extracted from each of them. This allows quantifying, using mathematical models, which companies are similar to each other and thus grouping them into the same sector.
After constructing the categories, each of them is assigned a name, using the most important information shared by the SMEs within the category.
In summary, the classification provides valuable information to analysts interested in investing in SMEs, allowing them to analyze them collectively rather than individually. This more globalized perspective enables the detection of interesting growth trends in the investor's world.
Códigos UNESCO CyT
Editors: Comillas , Administradores CKH · Universidad de Comillas
Shared with:
