El día de hoy Amazon ha anunciado que pondrá a disposición un conjunto de datos de Topical Chat que se destinarán a contribuir con la comunidad investigadora de los sistemas de generación de respuestas neuronales basadas en el conocimiento.

Una de las contribuciones más grandes

Desde el blog de developers de Amazon mencionan que esta data constará de un corpus de conversaciones sociales humano-humano recopiladas de una multitud de trabajadores.

Este conjunto de datos de Topical Chat constará de más de 210,000 expresiones, es decir, más de 4,100,000 palabras. Un volumen de datos que representa el mayor conjunto de datos de conversación social que esté disponible de forma pública para la comunidad investigadora.

Datos recopilados

De acuerdo con el científico principal de Amazon Dilek Hakkani-Tur, cada conversación de este conjunto de datos se recopila a partir de una variedad de recursos de texto no estructurados o poco estructurados, dentro de los cuales no se encuentran almacenadas las conversaciones de los clientes de Alexa.

Respuestas automáticas

Amazon se muestra muy positivo y menciona que esta colección de datos colaborará con los próximos pasos en la investigación de sistemas de generación de respuestas neuronales basadas en el conocimiento, los cuales enfrentarán desafíos difíciles en conversaciones naturales.

Una data que le permitirá a los investigadores centrarse en la forma en que los humanos realizan transición entre temas, selección de conocimientos y enriquecimiento, y la integración de los hechos y las opiniones en el diálogo.

¿Quiénes tendrán el acceso a la data?

Por lo pronto, Amazon destaca que este conjunto de datos que se dará a conocer públicamente el 17 de septiembre de este año, estará disponible para aquellos equipos que compiten por el Premio Alexa, quienes tendrán acceso a una versión ampliada de este conjunto de datos que incluye resultados de las recopilaciones y anotaciones en curso.