Sistema de Análisis de Bolsas de Empleo
Servicio Nacional de Capacitación y Empleo - SENCE
Herramientas utilizadas
Ficha de transparenciaCuestionario
¿En qué consiste el problema que buscaron solucionar a través de la ciencia de datos o inteligencia artificial?
En un mundo cada vez más digitalizado, las plataformas de empleo en línea se han convertido en espacios de interacción esenciales para conectar a las personas, que buscan nuevas oportunidades laborales, con las empresas, que buscan atraer talentos para aumentar su productividad. Las bolsas de empleo desempeñan un papel crucial, ya que son el puente que facilita el encuentro.
Sistematizar el gran volumen de data que generan permite producir información actualizada sobre las tendencias del mercado laboral, identificar cuáles son las ocupaciones que están siendo demandas por empleadores y cuales son requisitos más solicitados. A modo de ejemplo, el año 2024 SABE procesó 879 mil avisos de empleo, que fueron clasificados en 141 ocupaciones, incluyendo 24 perfiles digitales.
Para el Servicio Nacional de Capacitación y Empleo (SENCE), la información generada por SABE es clave para orientar de manera más precisa la oferta de capacitación y los servicios de intermediación laboral, Esta herramienta nos permite conocer las necesidades actuales del mercado laboral y de los empleadores que ofrecen empleo.
Nuestro propósito con SABE es generar evidencia que respalde la toma de decisiones y apoye la efectividad de nuestros programas, mejorando la empleabilidad y potenciando las trayectorias laborales de las personas.
Las fuentes de información disponibles para analizar tendencias del mercado laboral se basan principalmente en encuestas, ya sea dirigida a personas (ENE) o empresas (ENADEL), éstas tienen la ventaja de tener representatividad estadística pero su desventaja es el rezago en la publicación de resultados, debido a que tienen un tiempo de levantamiento y procesamiento más extenso.
En cambio, los avisos de empleo son una fuente de información más dinámica sobre demanda laboral y sobre los requerimientos en términos de certificaciones y habilidades que tienen empleadores a lo largo del país. En SABE procesamos información de avisos de empleo en línea de 6 bolsas de empleo y desde 2020 en adelante se han analizado más de 4,5 millones de avisos. A pesar de ser un volumen de avisos importante, la información que reporta SABE tiene cobertura limitada, ya que las bolsas de empleo en línea son uno entre muchos otros canales de intermediación laboral y todavía en algunos sectores económico, como la construcción y la agricultura, su uso está menos extendido.
Para la clasificación de los avisos de empleo en ocupaciones, fue entrenado un modelo de procesamiento de lenguaje natural especializado en identificar ocupaciones. Utiliza como base el modelo BETO, que es una adaptación al español del modelo BERT de Google. Para el aprendizaje de la red neuronal se construyó una base de entrenamiento con ejemplos que consideró la clasificación de 9.500 avisos de empleo por codificadores expertos, está base fue complementada con 700 codificaciones de puestos de trabajo y tareas de la Encuesta Nacional de Demanda Laboral. Dentro de las ocupaciones que son parte del conjunto de entrenamiento están incluidas las 130 ocupaciones que ejercen el 90% de las personas ocupadas en Chile, según resultados de la encuesta CASEN 2022.
¿Qué desafíos éticos implicaba aplicar esta tecnología? ¿Por qué?
En términos general, el proyecto SABE no utiliza datos nominados, por tanto, no tiene desafíos éticos vinculados a la protección de datos personales o posibles sesgos que discriminen a grupos de personas.
Sin embargo, el uso de modelos pre entrenados implica que es necesario ser cuidadoso con el uso de estos modelos, ponderando adecuadamente los resultados e identificando las limitaciones que tienen y el tipo licenciamiento.
Por ejemplo, uno de los desafíos importantes fue construir métricas de resultados que permitieran evaluar críticamente los resultados de la clasificación obtenidos.
Por el lado de la fuente de información, los avisos se recopilan de distintas bolsas, mediante convenios y scraping de información pública, esta data luego es armonizada para eliminar avisos duplicados y republicados dentro de una ventana temporal del mes calendario. En el tratamiento de la data hay muchas decisiones metodológicas para llegar a construir indicadores consistentes y de calidad. En esta línea, hemos tratado de construir un proyecto siguiendo buenas prácticas internacionales, recopilando información pública y evitando utilizar datos personales o protegidos y con el foco puesto en la construcción de un bien público que aporte evidencia de calidad sobre demanda laboral de ocupaciones. En ese sentido, la colaboración con el Instituto de Sistemas Complejos de Ingeniería de la Universidad de Chile y con GobLab de la Universidad Adolfo Ibáñez ha sido clave para construir un proyecto con altos estándares de calidad técnica y que considere los desafíos éticos asociados.
Por último, la comunicación de resultados de un proyecto que tiene bastante complejidad técnica también tiene desafíos éticos, ya que es difícil comunicar resultados a públicos no especializados, entonces hay que tratar de ser super claros y responsables sobre el alcance y las limitaciones del proyecto.
¿Qué resultados obtuvieron de estos pilotos?
Nos entregó un buen panorama sobre cuáles eran los aspectos claves para tener un buen estándar de transparencia algorítmica, que nos sirvió bastante para mejorar las notas metodológicas que teníamos publicadas en nuestro sitio. Fue una buena base para evaluar cómo estábamos publicando los detalles del modelo construido. Destaco la discusión sobre licenciamiento del modelo, que era un aspecto que no sabíamos cómo reportar.
¿Con qué aprendizajes se queda su organización?
Nos parece que es muy importante participar de instancias de validación externa que permitan adaptarse a altos estándares de transparencia. La participación en el piloto fue muy útil para hablar en un lenguaje común con quienes desarrollan algoritmos o aplicaciones de IA. Es una buena base de comparación y sirve también para conocer experiencias de otras instituciones.
¿Cuáles son los próximos pasos para la implementación de IA responsable en su proyecto?
Nos gustaría comparar nuestro modelo (BETO-BERT) con nuevos modelos LLM que han aparecido últimamente, nuestro objetivo es evaluar los resultados de la clasificación que realizamos y ver si es posible incorporar estas herramientas en alguna parte del proceso de SABE, aunque vemos como desafíos la construcción de adecuadas métricas de desempeño para los resultados con modelos LLM.
¿Cómo fue la experiencia de trabajar de la mano con el GobLab de la UAI?
La vinculación con la academia es importante para nosotros, muchas veces se trabaja en islas y es bueno conocer otras experiencias y estar al día con la discusión de los expertos. GobLab centraliza los algoritalos desarrollados en el sector público y el repositorio que tienen ayuda a conocer, en un solo lugar, las experiencias de otras instituciones. Por tanto, nos parece que cumplen una función importante para establecer buenos estándares que permiten el desarrollo de iniciativas de calidad.
¿Qué le diría a otro organismo público que esté interesado en trabajar con estas herramientas de código abierto, pero aún no se ha convencido?
Es importante colaborar y conocer los estándares para el desarrollo y puesta en marcha de algoritmos y aplicaciones de inteligencia artificial. La experiencia muchas veces está afuera del sector público y GobLab ayuda a conocer qué se está haciendo en otras instituciones.