La idea de datos sintéticos no es ninguna novedad. Se puede remontar a los años treinta, tal como se utilizaba en la síntesis de audio y voz. Sin embargo, está ganando protagonismo ya que se utiliza en análisis de datos grandes y en formación en inteligencia artificial a la luz de problemas crecientes de sesgo y privacidad.

un 2018 Estudio de Gartner se proyectó que el 85 por ciento de los algoritmos serían erróneos debido al sesgo. Por otra parte, parece que el big data se ha convertido en un gran negocio para los abogados, Pero se está convirtiendo en una preocupación seria para los consumidores o para la gente normal.

Para solucionar estos problemas de datos, las empresas de IA recurren a datos fabricadas o sintéticas. Estos generan datos artificiales en diversas formas, desde las numéricas hasta las visuales, apoyadas en técnicas de aleatorización y anonimización establecidas para simular información del mundo real.

A continuación se detallan algunas de las empresas más notables que aprovechan los datos sintéticas para avanzar en el desarrollo de la inteligencia artificial y el aprendizaje automático.

Ai.Reverie

Fundada en 2016, empresa de datos sintéticas y IA AI.Reverie ofrece un conjunto de APIs diseñadas para ayudar a las organizaciones de todas las industrias a entrenar sus algoritmos de aprendizaje automático para mejorar sus aplicaciones de inteligencia artificial. La empresa está especializada en visión por computador. Aborda específicamente tres de los principales obstáculos que han limitado esta tecnología durante décadas: la falta de diversidad de datos, el acceso limitado a los datos y el largo y costoso proceso de etiquetado de datos. Se dice que los datos fabricadas por AI.Reverie ofrecen una diversidad de 10 veces y una precisión de anotación del 100%.

AI.Reverie fue nombrado Gartner Cool Vendor para 2020 en AI Core Technologies, una distinción que la empresa considera una afirmación de su innovadora tecnología. El 2019, AI.Reverie forjó un acuerdo de inversión y colaboración estratégica con In-Q-Tel, una organización sin ánimo de lucro que apoya a las agencias de inteligencia y defensa de los Estados Unidos, para avanzar en tecnologías de visión por computador para hacerlas útiles en aplicaciones de misión crítica.

Sobretot.Ai

Afirmando ser la plataforma de datos sintéticos más precisa del mundo, Sobretot.ai busca desbloquear activos de datos masivas manteniendo la privacidad de los consumidores (que son la fuente de estos datos). Esta misión se ajusta a la razón más importante por la que se utilizan datos sintéticos en la investigación. La empresa se centra en ayudar a las organizaciones a evitar las implicaciones adversas de la violación de los derechos de privacidad por el uso de datos recogidos de los consumidores.

Con sede en Austria, Mostly.ai aprovecha las «redes neuronales profundas generativas de última generación» que incluyen mecanismos de privacidad integrados que hacen imposible asociar datos con identidades específicas. La tecnología alimentada por GPU de la compañía permite a las organizaciones simular escenarios realizables y escalables de forma convincente mediante datos de clientes completamente anónimas. Aparte de la formación IA Mostly.ai ofrece sus datos sintéticos para permitir una evaluación rápida de PoC y apoyar el desarrollo de productos basado en datos.

OneView

Otra empresa que tiene como misión acelerar el desarrollo de la inteligencia artificial y el aprendizaje automático es OneView de Tel Aviv, Israel. Fundado en 2019, ya ha llamado una atención considerable por su tecnología de generación de datos sintéticos. OneView especializa en datos sintéticos para el análisis de imágenes de teledetección, en particular imágenes virtuales de satélite, aéreas y drones que se utilizarán en la formación de algoritmos de IA. La compañía ha estado trabajando con agencias de defensa e inteligencia, así como con empresas comerciales, y ha obtenido elogios de Kobi Katz de RAFAEL Advanced Defense Systems, Ltd.

OneView responde a puntos reales de dolor en la industria GEOINT. Los algoritmos de inteligencia artificial utilizados para el análisis geoespacial (la interpretación de imágenes de teledetección) se basan en imágenes reales para su entrenamiento. Esto plantea tres retos principales: en primer lugar, las imágenes reales son costosas. En segundo lugar, la anotación de las imágenes se hace manualmente y es propensa a errores. Finalmente, a veces simplemente no puede encontrar la cobertura que busca, ya que no se capturó. La plataforma de generación de OneView supera los tres retos. En primer lugar, el proceso de generación es rápido y rentable. En segundo lugar, los conjuntos de datos se crean automáticamente y salen del sistema completamente anotados y «preparados para la formación». En tercer lugar, se cubren prácticamente todos los escenarios posibles: cualquier objeto se puede colocar en cualquier entorno y los conjuntos de datos se pueden adaptar a cualquier sensor disponible.

Dataga

Ofrecer una solución al cuello de botella de datos en el desarrollo de visión por computador, Dataga ofrece datos de entrenamiento de alta variación escalables y personalizables sintetizadas con referentes del mundo real. La compañía ayuda a avanzar en el proceso de aprendizaje de algoritmos de inteligencia artificial utilizados en robótica, coches inteligentes, tiendas inteligentes, realidad aumentada, realidad virtual, Internet de las cosas, fábricas inteligentes, drones, sistemas de seguridad y varias otras aplicaciones.

Dataga especializa en lo que llama «datos centradas en los humanos», que califica de próxima generación de datos sintéticos. Esta tecnología aprovecha las capacidades los algoritmos de generación de variaciones espaciales latentes (GAN), algoritmos de super renderización y algoritmos humanoides de aprendizaje de refuerzo para producir conjuntos de datos que representan el mundo real con detalles fotorrealistas y de alta varianza. Estos conjuntos de datos se pueden entregar con anotaciones 2D y 3D a medida.

cognata

cognata es una empresa de datos sintéticos especializada en vehículos con conducción automática. La empresa proporciona una simulación completa del ciclo de vida del producto para fabricantes de vehículos autónomos y desarrolladores de sistemas avanzados de apoyo a la conducción (ADAS). Ofrece formación de vehículos autónomos (AV) mediante entornos 3D generados automáticamente, factores de tráfico hiperrealistas impulsados ​​por IA. También proporciona una plataforma de validación AV en que se pueden compilar escenarios para generar millones de casos AV edge. Además, permite un análisis AV sofisticada con sus reglas y herramientas de visualización configurables.

Cognata pone énfasis en el realismo, la escalabilidad y la facilidad de integración en sus conjuntos de datos. La empresa ha desarrollado un sistema para emular de manera realista la actividad de los sensores y movimientos de un AV mientras se mueve por la ciudad. Como se muestra en un fichero Informe de revisión del MIT, Investigadores de cognados identificaron el problema de la imprevisibilidad en vehículos autónomos cuando se encuentran con escenarios inusuales. Cognata desarrolló una solución que aprovecha los datos sintéticas para solucionar este defecto.

Límites de elevación, aceleración de la operación, reducción de costes

Entonces, como ayudan estas empresas a avanzar en el desarrollo de IA con datos sintéticos? Todo se resume en tres ventajas vitales: ilimitación, generación de datos más rápida y coste significativamente inferior.

En primer lugar, los datos sintéticas son ilimitadas a diferencia de la restricción inherente al uso de datos reales. El uso de datos reales del mundo es ideal, pero a menudo es inviable o es extremadamente difícil de hacer. Los datos sintéticas ofrecen una alternativa excelente sin comprometer la precisión. Con las tecnologías y los algoritmos adecuados, se pueden producir datos sintéticos para que coincidan con objetos del mundo real y realidades con prácticamente nula varianza, al tiempo que se pueden escalar para satisfacer necesidades diferentes.

Por otra parte, es mucho más rápido producir y utilizar datos sintéticos. Uno de los problemas más importantes del uso de datos reales es la tediosa y larga tarea de etiquetado o anotación. Se requiere la participación humana para etiquetar los datos antes de ser alimentadas a un sistema de inteligencia artificial. Con los datos sintéticas, la anotación es automática. Todas las etiquetas necesarias añaden a medida que se producen los datos y son tan precisas como pueden, ya que se crean a medida que se fabrican los datos.

Finalmente, como que los datos sintéticas son mucho más fáciles y rápidas de producir, su coste es sensiblemente inferior. Además, se puede personalizar y reducir en función de las necesidades específicas.

Todas las startups enumeradas anteriormente producen conjuntos de datos sintéticos que crean las ventajas de un conjunto de datos ilimitado, un tiempo de comercialización más rápido y un bajo coste de datos. Pueden tener enfoques diferentes, pero son similares en hacer un uso eficiente de los datos fabricadas para acelerar la formación en IA y acelerar la realización de proyectos que utilizan IA o aprendizaje automático.

Imagen: Pixabay