Un nuevo informe realizado por dos estudiantes e investigadores de la Universidad de San Francisco (USF) han mostrado cómo a través de cuatro modelos de aprendizaje automático se puede predecir cuáles canciones de Spotify serán exitosas.

De acuerdo con la fuente, en este estudio que fue publicado en arXiv se mostró cómo a través de las novedades de la API de Spotify es posible conocer el éxito de un tema en particular.

Spotify y el Aprendizaje Automático

Kai Middlebrook y Kian Sheik, fueron los científicos que realizaron este proyecto como parte de la asignación final de su curso de minería de datos en USF, donde comenzaron por preguntarse si era posible saber “¿será que esta canción tendrá éxito?”

Los científicos utilizaron 1,8 millones de canciones provenientes de la API web de Spotify, desde la cual extrajeron datos relacionados con las canciones como: tempo, clave, valencia, energía, acústica, bailable y volumen.

Cuatro modelos

Además de 30 años de datos del Billboard Hot 100 gráfico. Datos que sirvieron para entrenar y evaluar los cuatro modelos de aprendizaje automático: regresión logística, red neuronal, máquina de vectores de soporte (SVM) y una arquitectura de bosque aleatorio (RF). De acuerdo con Middlebrook:

El objetivo del estudio era ver si las canciones exitosas compartían características similares y, de ser así, si esas características podrían usarse para predecir qué canciones serían exitosas en el futuro.

El primer modelo, el de regresión logística categoriza las canciones con el término ‘hit’ y ‘no hit’, otorgándole a una canción una ponderación de 1 para ‘hit’ y 0 para ‘no hit’.

El segundo modelo , el de la arquitectura de RF combina una gran cantidad de árboles capaces de predecir el éxito de una canción combinando todos los resultados obtenidos de un árbol.

SVM y redes neuronales

Por último, los investigadores destacan que el modelo de arquitectura SVM ofrece mejores resultados tratando de separar los datos como hits o no hits, mientras que la arquitectura de red neuronal usa una capa oculta con diez filtros para aprender de los datos de la canción.

Finalmente, con este estudio los investigadores descubrieron que la arquitectura SVM ofrece una tasa de precisión más alta con el 99.53%, mientras que el modelo de bosque aleatorio alcanzó una tasa de precisión del 88% y una tasa de recuperación de 85.51%.

Resultados

Un resultado de estos algoritmos podemos verlo con el tema Me Rehúso” de Danny Ocean. La canción llegó al top en Latinoamérica, obtuvo más de un millón de reproducciones diarias, rompió el récord de temas como “Despacito” como la canción latina con más tiempo en el Top 50 de la plataforma. El artista logroó surgir gracias a este algoritmo de recomendaciones, que permite que un solo tema musical pueda catapultar a un artista nuevo como el ejemplo.

Otros datos importantes reflejados por este estudio es que a la hora de realizar el análisis el modelo de regresión logística es el más fácil de interpretar, el basado en redes neuronales es un poco más complicado, mientras que los otros dos modelos caen en el medio de estos dos.