IA generativa: mitigación de los riesgos de seguridad y privacidad de los datos
La IA generativa ha tomado el mundo de la tecnología por sorpresa. Pero, ¿está pensando su empresa en los posibles riesgos de datos y seguridad?
Este blog asume una comprensión fundamental de los conceptos, términos y tecnología de IA generativa.
En los últimos meses, la IA generativa ha conquistado el mundo de la tecnología. Según CB Insights, 2022 fue un año récord para la inversión en nuevas empresas de inteligencia artificial generativa, con una financiación de capital que superó los 2600 millones de dólares en 110 acuerdos. Ya sea que se trate de la creación de contenido con Jasper.ai, la creación de imágenes con Midjourney o el procesamiento de texto con los servicios Azure OpenAI, existe un modelo básico de IA generativa para impulsar varios aspectos de su negocio.
Cómo se procesan los datos
Ya sea que decida entrenar su modelo de base patentado o ajustar y ajustar rápidamente un modelo de base comercial/de código abierto, o un modelo de base específico de dominio como una solución ISV, es fundamental que tome las medidas necesarias para mitigar la seguridad y privacidad de datos potenciales. riesgos
Algunas de las preguntas más frecuentes son:
- ¿Podemos proporcionar información confidencial a modelos de lenguaje grande (LLM) ya sea a través de un ajuste fino o un aumento rápido?
- ¿Los LLM revelarán mi información?
Una preocupación común es que un LLM pueda ‘aprender’ de sus indicaciones y ofrecer esa información a otras personas que consultan cosas relacionadas o que se puede usar para capacitar más al LLM. O los datos que comparte a través de consultas se almacenan en línea y pueden piratearse, filtrarse o, más probablemente, ponerse a disposición del público accidentalmente.
Es fundamental que tome las medidas necesarias para mitigar los posibles riesgos de seguridad y privacidad de los datos.
Tipos de datos
Primero profundicemos en los tipos de datos que un proveedor de servicios o aplicaciones de IA generativa puede procesar si decide ajustar y ajustar rápidamente un modelo de base existente, utilizando el diagrama de referencia de ejemplo a continuación:
Lista de verificación para mitigar el riesgo con IA generativa
Ahora que tiene una comprensión básica de cómo se procesan sus datos, debe revisar cómo se conservan sus datos y qué controles personalizados están disponibles para usted. Básicamente, debe comprender cómo se gestiona el intercambio de datos como parte del ajuste fino o aumento rápido. Para ayudar con esto, aquí está la lista de verificación de preguntas que debe hacerle al proveedor y garantizar el cumplimiento de sus políticas corporativas para mitigar los riesgos de seguridad y privacidad de sus datos:
¿El proveedor respalda su capacidad de optar por incluir/no incluir sus datos para entrenar su modelo?
- Sujeto a su caso de uso y para datos de propiedad, asegúrese de optar por no participar o, como mínimo, que los datos de entrenamiento proporcionados por usted solo se usen para ajustar su modelo y no los use el proveedor para entrenar o mejorar cualquiera de sus modelos
¿Puede eliminar sus datos de entrenamiento y validación y sus modelos ajustados?
- Asegúrate de que puedas.
¿El proveedor procesa los datos [solicitudes, finalizaciones y resultados generados] para entrenar, conservar o mejorar sus modelos?
- Sujeto a su caso de uso y para datos de propiedad, asegúrese de optar por no participar o, de forma predeterminada, el proveedor no utilizará los datos de salida para entrenar o mejorar ninguno de sus modelos.
- No envíe ningún dato privado y/o de propiedad a ningún LLM público como indicaciones.
¿Los datos de indicaciones y finalizaciones se almacenan temporalmente? En caso afirmativo, ¿durante cuánto tiempo se almacenan los datos?
- Asegúrese de que esté almacenado de forma segura en la misma región desde la que opera y que esté aislado lógicamente con su suscripción y credenciales de API.
- Asegúrese de que no sea más de «N» días que estén alineados con sus políticas corporativas.
- Asegúrese de que esté encriptado, en el mejor de los casos, con las claves administradas por los proveedores.
¿Se comparten los datos con los socios?
- Muchos proveedores anonimizan los datos mientras los comparten con sus socios. Asegúrese de estar de acuerdo con esto específico para su caso de uso, esto puede no ser suficiente para su corporación.
¿Quién tiene acceso a ella desde el proveedor ?
- Asegúrese de que solo los empleados autorizados tengan acceso a él.
¿Cómo son utilizados los datos por el proveedor?
- Puede usarse con fines de depuración en caso de falla y/o para investigar patrones de abuso o mal uso.
- Los modelos de filtrado de contenido se ejecutan tanto en las entradas de solicitud como en las finalizaciones generadas.
¿Puede optar por no participar en el filtrado y registro de contenido?
- Si su caso de uso implica el procesamiento de datos de entrada confidenciales, altamente confidenciales o legalmente regulados, pero la probabilidad de resultados dañinos y/o uso indebido es baja, consulte con su proveedor si puede cancelar el registro y el filtrado de contenido.
- Una vez que el proveedor apruebe la opción de exclusión, asegúrese de que no almacene ninguna solicitud ni finalización asociada con la suscripción aprobada para la cual la supervisión de abuso está desactivada. En este caso, debido a que no se almacenan indicaciones ni finalizaciones en reposo, ningún empleado del proveedor tiene acceso a sus datos, incluso por tiempo limitado.
¿El proveedor registra el uso del modelo y admite la trazabilidad para sus necesidades de cumplimiento?
- Asegúrate de que lo hagan.
Si su caso de uso requiere la creación de un modelo patentado, lo que significa que entrena su propio modelo, puede entrenar el modelo internamente o asociarse con el proveedor de modelos que admite el entrenamiento de un nuevo modelo propietario. Si se asocia con el proveedor del modelo, además de optar por VPC para la capacitación y el alojamiento del modelo, asegúrese de seguir la lista de verificación mencionada anteriormente cuando corresponda y asegúrese de cumplir con sus políticas corporativas para mitigar los riesgos de seguridad y privacidad de sus datos.
Traducción del artículo original de IDC
https://blogs.idc.com/2023/05/05/generative-ai-mitigating-data-security-and-privacy-risks/
MAYO 6 DE 2023