Introducción a la Arquitectura de Eventos en Salesforce

“Four years from now, ‘mere mortals’ Will begin to adopt an event-driven architecture (EDA) for the sort of complex event processing that has been attempted only by software gurus [until now]’
—Roy Schulte (Gartner), 2003

En esta primera entrada de una serie, intento situar, cuales son los mecanismos existentes en Salesforce, cuyo core es el uso de Eventos, e intento compararlos y ubicarlos en sus casos de uso.

Podría decirse que esta es una entrada 101 en Eventos de Salesforce.

En mi experiencia, no es trivial entender los “productos/mecanismos” que ofrece y ofrecerá Salesforce sobre eventos (Streaming API, Platform Events, etc.), y las tecnologías (Kafka, Bayeaux, Long Polling, etc.)  asociadas y los casos de uso a que dan respuesta.

Por ejemplo, el título de esta entrada es incorrecto, ya que debería ser algo así como: Introducción a los mecanismos de la Salesforce Enterprise Messaging Platform (pero con ese nombre …), espero pues, que el resto del artículo no sea como el título ;-).

Introducción a la Arquitectura de Eventos

No voy a extenderme mucho en las ventajas que puede suponer una arquitectura basada en eventos, frente a un patrón tradicional de integraciones.

Creo que la imagen de una “Arquitectura Spaguetti ” lo describe bien:

Arquitectura Spaghetti
Arquitectura Spaghetti tradicional en un entorno empresarial – Fuente: Gartner

En una Event Driven Architecture (EDA en adelante), idealmente la imagen se simplifica:

Event Bus Architecture – Fuente: Dzone

En muchos casos, cada vez más (especialmente cuando aparecen numerosos receptores de un mismo mensaje – IoT), este tipo de Arquitectura simplifica el diseño y da respuesta a casos de uso, a los que una arquitectura tradicional no daba una solución escalable.

Las ventajas de una EDA son:

  1. Publicación Real-Time de los eventos en el Producer (emisor)
    1. Una derivada de esto, implica que deja de producirse pooling por parte de los Consumers
  2. Desacople entre sistemas: el emisor y el receptor no se conocen
    1. Incluso la cadencia de emisión y consumo son distintos
    2. Se enfatiza si el BUS implementa Durabilidad de los mensajes (Retención de histórico recuperable)
  3. Simplificación del Patrón, usando Fire&Forget
  4. Arquitectura altamente escalable cuando el volumen de Consumers se dispara

Pero también tiene desventajas:

  1. Requiere de tecnologías no disponibles en todos los sistemas existentes
  2. Requiere de un mediador que permita la recepción y mediación de los eventos (y si se requieren funcionalidades avanzadas, es necesario un Event Bus cualificado)
  3. El número de comunicaciones entre los sistemas tiende a aumentar, especialmente si se implementa el patrón CallBack (el evento no contiene datos, solo los identificadores de los objetos de los que recuperar datos – por tanto para la recuperación se requieren invocaciones adicionales)
  4. El emisor no tiene garantía, ni pretende saber, que los destinatarios hayan tratado los eventos, ya que el patrón usado es Fire&Forget (no hay garantía de que todos los clientes consuman sus eventos)
  5. La gestión de errores se complica o no existe
  6. Los receptores mantienen la conexión abierta con el servidor, lo que se denomina Long Polling

El modelo de integración cambia entre ambos modelos de arquitectura, en la siguiente imagen se comparan:

Comparación Arquitecturas API y EDA
Comparación Arquitecturas Request-Response (enfoque tradicional) y EDA (basada en eventos) – Fuente: Hackernoon

Y el flujo de comunicación también, como por ejemplo mediante una conversación entre 2 sistemas con API y Streaming API:

Integración Tradicional via API
Integración Tradicional vía API
Integración vía Eventos, por ejemplo con la Streaming API

Veamos a continuación los diferentes productos que Salesforce ha ido proporcionando.

Productos de Salesforce basados en Eventos

Los productos que actualmente podemos usar los clientes de Salesforce son:

  1. Streaming API
  2. Streaming API con Generic Streaming (diós que nombre)
  3. Platform Events
  4. Change Data Capture (en Beta únicamente)

Y otros como  Event Monitoring, External Services Async, etc., que a corto/medio plazo incorporarán nuevas funcionalidades utilizando Eventos.

Los Productos de Salesforce orientados a Eventos han ido apareciendo paulatinamente

Como veremos estos productos han ido creciendo en el tiempo.

Descripción y casos de uso de cada unos de los productos

Producto DESCRIPCIÓN y casos de uso
Streaming API
  • Fue el primer producto orientado a Eventos para uso de clientes que ofreció Salesforce.
  • Completamente orientado a cambios en los datos para que la interfaz del usuario, reaccionara a esos cambios proporcionando así una experiencia muy rica.
  • Es decir, al mostrarse una página VF, se suscribe a ciertos mensajes que permitían actualizar los datos o avisar al usuario de cambios en los datos visualizados
Streaming API con Generic Streaming
  • Permite enviar una notificación para un evento en cualquier momento con un contenido de datos  personalizado  pero muy limitado (Payload al uso) sin necesidad de estar ligado a un cambio de datos.
  • El Payload está limitado un array de Strings y opcionalmente la lista de IDs de los receptores, lo que permite restringir a quien debe llegar el String de información
  • Orientado a casos de uso, para envío de una simple notificación ad-hoc, basada en String a un conjuntos de clientes, los cuales pueden ser conocidos (por eso la opción de lista de IDs en el envío de la notificación)
Platform Events
  • Basado en Streaming API (según comenta Jay Hurst – Responsable del equipo de Platform Events), aparece  este mecanismo mucho más versátil.
  • Permite enviar una notificación para un evento en cualquier momento con un contenido de datos completamente personalizado (Payload al uso) sin necesidad de estar ligado a un cambio de datos.
  • El Payload se define mediante campos, como si de un Custom Object se tratara, sin limitaciones y con las capacidades de gestión y utilización de campos de un objeto.
  • Su orientación está claramente enfocada a la integración de sistemas, donde aparecen escenarios de IOT, integración de sistemas heterogénos en Tiempo real, y con Pacing distintos (velocidad de emisión y consumo pueden ser completamente diferentes).
Change Data Capture
  • Basado en Platform Events, ofrecerá (en fase beta restringida y limitado en funcionalidad) un mecanismo que nativamente, ofrecerá el envío de un notificación para cualquier cambio, en cualquier objeto de Salesforce, tanto sea de datos, como de acciones del usuario, del sistema, etc.,
  • No es necesaria su emisión, simplificando así su consumo y proporcionando un mecanismo de consumo de eventos de la plataforma muy potente

En los siguientes apartados se analizan los productos actualmente disponibles (desafortunadamente en el momento de escribir esta entrada no tengo acceso a Change Data Capture).

Conceptos usados en cada uno de los productos

Cada producto usa conceptos que deben conocerse para su correcta comprensión y  utilización.

Producto DESCRIPCIÓN
Streaming API
  • Push Topic / Generic Topic: es la definición de cuando se generará un evento y que información contendrá la notificación
  • Notification: es el mensaje que se genera al producirse un evento
  • Channel: la notificación es enviada a un canal, para que los clientes la puedan consumir
  • Client: son los que se suscriben a N canales, para recibir las notificaciones
Streaming API con Generic Streaming
  • Streaming Channel:  lo que entendimos como el Channel, ahora se define mediante un objeto Standard
  • Streaming Channel Push: término utilizado para el envío de la notification
Platform Events
  • Platform Event: es la definición del contenido que tendrá el evento, sus campos de datos
  • Event message: es el mensaje, lo que en Streaming API es la Notification, por eso también se denomina Event Notification.
  • Channel: sin cambios, tiene el mismo significado
  • Event Producer y Event Consumer: aunque cambian los nombres siguen siendo el Emisor y el Cliente del Evento

Creación del Canal y Generación del Evento

Veamos pues, como se realizan la creación del canal y la generación del evento en cada uno de los productos:

Producto  DESCRIPCIón
Streaming API
  • La creación del canal consiste en la creación del Topic, que consiste en la definición de una SOQL. Esta query indica qué campos de un objeto deben verse alterados (Insert, Update, Delete, Undelete) para que se lance el evento.
  • La SOQL SELECT Id, Name, Phone FROM Account WHERE BillingCity=\'San Francisco\' provocará un evento cada vez que en Account se produzca una Creación, Actualización , Delete y/o Undelete (que afecte a estos campos) de un registro cuya BillingCity sea San Francisco.
  • No todas las queries son posibles, no se permiten cláusulas AVG, MAX, MIN, SUM, COUNT, LIMIT, etc., ni agrupaciones, ordenaciones, etc y xisten restricciones a cumplir (Id debe formar parte del Select, por ejemplo)
  • El canal para la suscripción de los clientes, se crea automáticamente en el recurso /topics/nombre_Topic
  • El Payload de la notificación enviada está formado exclusivamente por los campos que  se indican en la definición de la Query, y no es ampliable
  • La SOQL de definición puede usar cualquier objeto Custom y  los siguientes estándar: Account, Campaign, Case, Contact, Lead, Opportunity, Task, y bajo petición ContractLineItem, Entitlement, LiveChatTranscript, Quote, QuoteLineItem, ServiceContract
Streaming API con Generic Streaming
  • La creación del canal consiste en la creación de un registro en el objeto Streaming Channel, cuyo campo más importante es el Channel Name que debe tener el formato: /u/notifications/ExampleUserChannel
  • Es posible crear este Channel a través de APEX y APIs (REST y SOAP)
  • La generación de un evento se realiza mediante un POST al recurso /services/data/v/sobjects/StreamingChannel/ID/push donde el cuerpo del mensaje contiene un array de parejas un String con el mensaje a enviar y un array de identificadores de receptores si es que se desea restringir a quien quiere enviarse el mensaje
  • Esta versión de la Streaming API, soporta Dynamic Streaming Channel Creation, es decir, la creación automática del canal durante la primera invocación de la primera suscripción de un cliente
Platform Events
  •  El primer paso requiere la definición de un Platform Event, que es casi idéntico a un Custom Object (tiene como campos estándar: Fecha Creación, Creador y Replay ID) y podemos añadir campos de los tipos: Checkbox, Date, Date/Time, Number, Text y Text Area (Long)
  • La publicación de un Platform Event puede ser vía:
    • Visual Flow ó Process Builder de forma declarativa
    • Codificación en APEX mediante la clase Database
    • Invocación via API (SOAP/REST). En el caso de REST el es recurso /services/data/v41.0/sobjects/ Event_Name __e/ y proporcionado el Payload definido en la creación del Platform Event

Suscripción al canal

Análogamente para la suscripción:

Producto DESCRIPCIÓN
Streaming API (también Generic)
  • Subscripción: requiere de implementación de un cliente de Bayeaux, típicamente CometD en javascript, del cual hay muchos ejemplos en la documentación y en la comunidad (por supuesto disponible para otros lenguajes)
    • No es posible hacerlo de forma declarativa, ni por otro mecanismo de configuración
    • Además es posible la Bulk Subscription: en lugar de indicar un solo Channel y Topic, se realiza la petición de un array de Channels y Topics
  • De-suscripción: es una de las 5 funcionalidades básicas del protocolo Bayeaux: Connect, Disconnect, Handshake, Subscribe y Unsubscribe
  • Desactivar temporalmente Push Topic: es posible desactivar un Push Topic temporalmente, sin necesidad de eliminar y re-crearlo
Platform Events
  •  Podemos suscribirnos a la recepción de Eventos vía:
    • Usando Visual Flow ó Process Builder de forma declarativa
    • Mediante Triggers con la operación after insert. Adicionalmente es posible re-procesar un evento con la operacion EventBus.RetryableException
  • Y también podemos suscribirnos con un cliente CometD, donde el canal de suscripción es sobre /event/ Event_Name __e

Destacar que los suscriptores APEX, se ejecutan en el proceso denominado “Automated Process”, lo que por ejemplo obliga a la creación de un Log ad-hoc, para visualizarlos (existen otras implicaciones que deben comprobarse).

La de-suscripción es equivalente.

Aquí podemos ver un esquema resumen de Platform Events donde es posible observar todos los mecanismos comentados:

Esquema de uso de Platform Events – Fuente: Salesforce

Características únicas de cada Producto

Cada uno de estos productos, posee ciertas características que vale la pena conocer, no se ahonda en cada una de ellas, solo trato de enumerarlas.

Versionado de Schema en Platform Events

El Schema es un concepto que Salesforce introduce para identificar la versión de los metadatos del mensaje.

Así, en Platform Events, podemos modificar arbitrariamente el contenido del Objeto creado, que conformará el contenido de la estructura. Por tanto, si se modifica la definición del Platform Eevnt, y el sistema consumidor, no puede detectar que la estructura ha cambiado, puede suceder un problema de pérdida de datos del evento.

    • El Schema está versionado y cada mensaje contiene un identificador de la versión del esquema.
    • El esquema está accesible para ser consultado via API en los recursos siguientes:
      • /vXX.X/event/eventSchema/Schema_ID
      • /vXX.X/sobjects y /Platform_Event_Name__e/eventSchema

Topic Filtering en Streaming API

Filtrar la suscripción aporta la capacidad de recibir solo algunas de las notificaciones/mensajes sin modificar el canal establecido, filtrando la recepción durante la suscripción.

  • Tan solo requiere la modificación del String de suscripción: topic/ChannelName?<expression>, donde expression es fieldA=valueA&fieldB=valueB&…

Estará disponible para Platform Events supuestamente en Spring 18, según la información actual.

Ver la lista de suscriptores en Platform Events

Platform Events permite mostrar tanto vía la interfaz de usuario como obtener vía API, la lista de suscriptores Triggers o Processos (sólo vía API) asociados a cada evento definido.

Message Durability (Conservación del histórico de mensajes para su Recuperación)

Indica la capacidad de un cliente para recuperar notificaciones pasadas durante lo que se denomina la ventana de retención. Esto implica un total desacople entre emisores y receptores, y un pacing posiblemente desalineado.

Message Durability explicada por Salesforce - Fuente: Salesforce
Message Durability explicada por Salesforce – Fuente: Salesforce
Producto DESCRIPCIÓN
Streaming API (incluye Generic)
  • Soportado a partir de la v37, con una ventana de recepción de 24h
Platform Events
  • Soportado con una ventana de recepción de 24h como en Streaming API, pero sólo para los clientes CometD, no via Trigger

Consideraciones de Seguridad

Streaming API

  • FLS se aplica tanto a los campos del SELECT como del WHERE:
    • Si el cliente tiene un Profile, cuyo acceso a datos restringe a algunos de ls campos del WHERE de la definición del Topic, el cliente no recibe la notificación
    • Análogamente, si el Profile no permite acceso a alguno de los campos del SELECT, el cliente SI recibe la notificación, pero no recibirá ese campo informado
  • Puede restringirse el acceso sobre el Objeto utilizado en la Query
  • Puede restringirse el acceso sobre el propio PushTopic
  • Puede restringiste el acceso sobre el Push Streaming Channel

Platform Events

  • FLS no aplica: Todos los campos son read-only por defecto, y no es posible restringir el acceso a los campos individualmente. Dado que los campos de un evento no son visible en la interfaz de usuario, FLS no aplica.
  • La utilización de Platform Encription no aplica, con lo que debe tenerse en consideración.

Límites

A continuación se detallan los límites según la documentación en el momento de escribir la entrada:

Streaming API

De los siguientes límites, es importante notar las restricciones sobre:

  • Número máximo de Topics por Org
  • Número máximo de clientes sobre un Topic
Limits sobre la Streaming API
Límites sobre la Streaming API – Fuente: Salesforce

Platform Events

Para este producto hay que tener en cuenta el número máximo de Eventos definidos por Org.

Límites en Platfom Events – Fuente: Salesforce

Limitaciones adicionales existentes

Producto DESCRIPCIÓN
Streaming API
  • La SOQL de definición 1300 characters
Platform Events
  • No son transaccionales y por tanto no existe Rollback
Change Data Capture
  • Actualmente en beta, y solo se existe soporte para algunos objetos

Palabros que suenan alrededor de Eventos pero que despistan

Durante el aprendizaje de la arquitectura de Eventos, aparecen otros conceptos y palabrOs, que a menudo descolocan.

  1. Kafka: es una plataforma distribuida de eventos, originalmente construida por Linkedin y actualmente de Apache. Su capacidad de altos volúmenes y clustering, parece ser la idónea para que Salesforce la utilice dentro de sus sistemas internos para dar respuesta a clientes con Altos volúmenes. No es necesario conocer Kafka para entender y usar la arquitectura de Eventos Salesforce.
  2. Salesforce Connect: es un mecanismo basado en oData para el acceso a datos externos a Salesforce como si de objetos locales se tratara. Nada tiene que ver con la Arquitectura de Eventos de Salesforce.
  3. Heroku Connect: es un mecanismo de replicación contínua entre Salesforce y el servicio PaSS Heroku. Aunque ambas se puedan comunicar por Eventos (?), nada tiene que ver tampoco con la Arquitectura de Eventos de Salesforce.
  4. External Services: como hemos visto anteriormente, si que se pone como ejemplo, que la siguiente versión de este servicio, podría utilizar la tecnología de eventos, para proporcionar asincronía, pero como en los otros PalabrOs, no es necesario conocerlo para entender la Arquitectura de Salesforce.
  5. EMP Connector: es un ejemplo de cliente CometD que ofrece Salesforce para mostrar como realizar las operaciones sobre la plataforma y simplificar nuestro código utilizando sus funciones (enlace en la parte final del artículo)

Conclusiones

Como hemos visto la plataforma de Eventos de Salesforce ha ido creciendo y aportando nuevos productos, donde cada uno de ellos satisface ciertos casos de uso y necesidades.

Actualmente, Platform Events parece el más flexible, el más potente, y un paso adelante para Salesforce (aunque, aún no soporta grandes volúmenes de Eventos).

Pero hasta la publicación de Change Data Capture, debemos valorar y conocer las capacidades de la Streaming API en sus 2 modalidades.

Por otro lado, algunas entradas en blogs y comentarios, demonizan la arquitectura de interfaces tradicional, pero en mi opinión será la combinación de una Arquitectura SOA + Arquitectura de Eventos permitirá abordar proyectos más complejos que los actuales con garantías de éxito en entornos empresariales con heterogeneidad de sistemas.

Para saber más sobre Platform Events, recomiendo estos artículos:

Finalmente con la posible aparición de Change Data Capture, obtendremos funcionalidades muy potentes para dar respuesta a una gran cantidad de casos de uso actuales.

Enlaces interesantes

Para saber más acerca de estos productos, las guías de ambos servicios creo que son muy adecuadas así como los ejemplos que proporciona la documentación oficial y todo el material (vídeos, presentaciones, etc.) que se pueda encontrar de Jay Hurst (Product Manager de la Plataforma de Eventos en Salesforce)

BULK API v2: 2 veces más rápida con la mitad de código

Una de las novedades que quizás pasaron inadvertidas en la última release de Winter ’18, fue la nueva versión de la BULK API, denominada BULK API v2, disponible en v41.0.

Esta nueva versión, sigue siendo una API REST, que utiliza los verbos HTTP para crear Jobs, cerrar/abortar, eliminar y obtener información al respecto, aportando novedades para el programador y una mejora del rendimiento para el usuario final.

En esta entrada, se muestran las diferencias entre ambas versiones y se compara el rendimiento.

Comparación entre versiones

Las novedades de esta nueva versión están orientadas al uso de la API:

  1. Ya no es necesaria la gestión de Batches dentro de1 Job.
    1. Dicho así parece simple, pero aquellos que hemos programado en este esquema, veremos simplificado el código necesario en un % elevado
  2. Los límites para el uso de esta API, se simplifican:
    1. 100 millones de registros/día
    2. Contenido de mensaje que no superen los 150MB codificados en B64 al llegar a Salesforce (lo que significa a ojo de buen cubero, como máximo mensajes con payload de 100 MB en origen)
  3. La velocidad de ejecución:
    1. Como se observa en las mediciones realizadas llega a ser x2

De menor importancia, pero muy útil:

  • En la v2 se ofrece un nuevo servicio, accesible con el verbo GET, para consultar el estado de los Jobs, pudiendo solicitar todos aquellos Jobs que cumplen ciertas condiciones
  • Además la v2 soporta 6 tipos de separadores de campos distintos (backquote, caret, comma, pipe, semicolon, y tab) lo que evita tener que modificar nuestros ficheros origen (mayor flexibilidad lo que comporta menos código)

Comparación entre ambas APIs

Simplificación del proceso

En la V1 la creación de trabajos requería:

  1. Autenticación
  2. Creación del Job
  3. Gestión de los Batches
    1. Creación individual de cada Batches
    2. Empaquetar cada Batch en el límite
    3. Envío de los datos del Batch
    4. Gestión individual del estado de las cargas
    5. Confirmación/Retry en caso de incidencias
  4. Cierre del Batch (para inicio de ejecución)
  5. Pooling del estado del Job
  6. Gestión de los resultados (obteniendo la información de los registros ejecutados/correctos/error)

En la V2, este proceso se simplifica:

  1. Autenticación
  2. Creación del Job (simple o multipart)
  3. Gestión de los Batches
    1. Creación individual de cada Batche
    2. Empaquetar cada Batch en el límite
    3. Envío de los datos del Batch Job
    4. Gestión individual del estado de las cargas
    5. Confirmación/Retry en caso de incidencias
  4. Cierre del Batch Job (para iniciar ejecución)
  5. Pooling del estado del Job, mediante invocación del servicio de intención de información del Job
  6. Gestión de los resultados (obteniendo la información referente a los registros ejecutados/correctos/error)

Es decir:

  • Salesforce ahora libera al desarrollador de la segmentación y tratamiento de los Batches, y únicamente requiere la creación del Job, Upload de los datos (si no utilizamos Multipart), y chequeo de estado con obtención de resultados
  • La segmentación de los datos se realiza ahora de forma que cada segmento, contiene 10.000 registros, como podemos ver en la página estado del Job, lo que disminuye el número de Batches que gestiona Salesforce internamente.
  • Se sigue la regla del 10×10: si el proceso tardara más de 10′, Salesforce lo marcaría como a Reintentar, hasta un máximo de 10 veces (en esta circunstancia el Job se da por Failed).

Detalle de un Job con la BULK API v2

Por tanto, la parte más compleja queda eliminada del proceso, simplificándolo en gran medida.

Operaciones disponibles en v2 y como usarlas

Las operaciones y los verbos utilizados en la API, son intuitivos, pero se recomienda estar muy atento al uso de las cabeceras que se indican en la documentación oficial de Salesforce, para evitar errores inesperados.

El proyecto Java, construido para esta entrada, disponible como Repositorio público, puede ser una opción,  para observar como son los valores, tanto para las cabeceras, como los Payload y respuestas, y así evitar problemas inesperados.

Autenticación

Sin cambios, la autenticación se realiza obteniendo el token oAuth como se realiza en v1.

Creación de un Job Simple

Existen 2 posibilidades para crear un Job. La opción, que denominamos Simple, consta de varios pasos: Creación, Upload de datos,  y Cierre del Job (inicio del procesamiento en Salesforce) y opcionalmente obtener información y estado final de los registros gestionados.

Para la creación tan solo se requiere,  el envío de una petición POST al endpoint  /services/data/vXX.X/jobs/ingest/. En el cuerpo del mensaje se indica:

  • El objeto destino, por ejemplo Persona__c, Account, etc.
  • La operación bulk a realizar: insert, update, delete, etc.
  • Los parámetros adicionales que caracterizan la lectura de los datos, o la naturaleza del Job (paralelismo, concurrencia, etc.).

Es imprescindible leer la documentación (al final del artículo todos los enlaces disponibles) para entender las posibilidades y restricciones que impone la API.

Ejemplo llamada Java Creación Job para la BULK API v2

Upload de Datos en un Job Simple creado

El Upload de datos, requiere de haber realizado la llamada anterior con éxito, dado que en la respuesta, se obtiene el endpoint de datos, donde deben enviarse los datos (100 MB como máximo aproximadamente – ver la sección de límites).

Obtenido el endpoint, solo se requiere un PUT a esa URL, pero debemos ser cuidadosos con la construcción de las cabeceras, y de los encodings (siguiendo el ejemplo del código disponible en el REPO, se obtiene como hacerlo correctamente).

Ejemplo llamada Java para el envío de datos al Job creado para la BULK API v2

Cerrar el Job

Con todos los datos enviados, se requiere de una llamada con el verbo PATCH, sobre el endpoint /services/data/vXX.X/jobs/ingest/jobID, indicando a Salesforce que todos los datos han sido enviados, y debe iniciar el procesamiento (construcción de los batches internos y toma de resultados).

Ejemplo llamada Java para el cierre del Job creado para la BULK API v2

Creación de un Job Multipart

Alternativamente a los pasos anteriores, es posible usar una única invocación para la creación, upload y cierre.

Para ello se requiere la construcción de un mensaje Multipart, siguiendo el formato indicado en la documentación, con el verbo POST hacía el endpoint /services/data/vXX.X/jobs/ingest/.

Ejemplo llamada Java Creación Job Multipart para la BULK API v2

Obtener estado del Job

Los estados del Job son: Open, UploadComplete. InProgress, JobComplete, Failed, Aborted. Existen ciertas restricciones,  como por ejemplo: para eliminar un Job, no puede estar en estado inProgress, o aparece el siguiente mensaje:

[{"errorCode":"API_ERROR","message":"Error encountered when deleting the job because the job is not terminated"}]

Consultar su estado requiere una invocación con el verbo GET al endpoint /services/data/vXX.X/jobs/ingest/jobID.

Ejemplo llamada Java para la consulta del estado de un Job para la BULK API v2

Información que se obtiene de un Job

La información que se obtiene de un Job, es completa, fácil de obtener y consumir. El objeto JSON retornado es:

{
"id": "7501r0000097DEBAA2",
"operation": "insert",
"object": "Contact",
"createdById": "005w000000484LsAAI",
"createdDate": "2017-12-17T09:29:10.000+0000",
"systemModstamp": "2017-12-17T09:29:10.000+0000",
"state": "Open",
"concurrencyMode": "Parallel",
"contentType": "CSV",
"apiVersion": 41.0,
"jobType": "V2Ingest",
"contentUrl": "services/data/v41.0/jobs/ingest/7501r0000097DEBAA2/batches",
"lineEnding": "LF",
"columnDelimiter": "COMMA",
"retries": 0,
"totalProcessingTime": 0,
"apiActiveProcessingTime": 0,
"apexProcessingTime": 0
}

Rendimiento comparado entre versiones

Hasta aquí todo son bondades para los programadores que trabajen con la API, pero poca repercusión tiene para los usuarios finales que la utilizan mediante herramientas de terceros, como ETLs, Data Loader, etc.

Para comparar tiempos, se ha construido un cliente Java sencillo con Web Service Connector, (enlace al repositorio) y se ha ejecutado una batida de pruebas tomando tiempos de ejecución de ambas versiones de la API (durante fin de semana previo a Navidad, cuando las instancias supuestamente estarán con baja ocupación).

Los resultados han sido:

OPERACIÓN y volumen Tiempo MEDIO empleado por la BULK API v1 Tiempo MEDIO empleado por la BULK API v2 Diferencial porcentual
INSERT 250K 131” 41” -220%
INSERT 500K 251” 138” -82%
INSERT 1M 442” 263” -68%
SOFT DELETE 500K 160” 148” -8%
UPDATE 250K 31” 22” -41%
UPDATE 500K 142” 123” -15%
UPSERT 500K 178” 110” -62%
  • Los tiempos se expresan en segundos
  • El volumen de registros se expresa en miles (k), es decir 250k indican 250.000 registros
  • Un diferencial negativo, implica una mejora del rendimiento
  • La operación Hard Delete no está actualmente disponible en la API V2
Resumen de Resultados porcentuales obtenidos

Conclusiones

Esta nueva versión v2, mejora la anterior tanto en uso, simplificándolo, como en rendimiento, mejorándolo, lo que supone que todos los usuarios, tanto técnicos como finales, se verán beneficiados.

Más sencillo y más rápido comporta más barato

Enlaces interesantes

Las Named Credentials simplifican el código Apex de Callouts mediante configuración estándar

La mayoría de los proyectos de Salesforce requieren Callouts para integrarse e invocar servicios en sistemas externos. Habitualmente estos Callouts, requieren de código Apex, el cual, puede volverse costoso, voluminoso y engorroso de mantener si desconocemos las Named Credentials.

Continue reading “Las Named Credentials simplifican el código Apex de Callouts mediante configuración estándar”

Replicar cambios en Salesforce hacia sistemas externos – Opciones y alternativas

No creo que sea casualidad que, en cada nueva versión, Salesforce introduzca mejoras sustanciales, a la permeabilización de sus datos y en especial, intentar hacerlo de forma eficiente, estándar y cada vez más simple.

Hasta hace relativamente pocos años, la integración entre Salesforce y sistemas externos, estaba limitada a unos escenarios concretos y a unas APIs reducidas.

Continue reading “Replicar cambios en Salesforce hacia sistemas externos – Opciones y alternativas”

Reporting sobre una Arquitectura Híbrida: Amazon-Salesforce usando Salesforce Connect

Una de las limitaciones que existian en referencia al uso de External Objects, era su limitada capacidad de Reporting.

En un artículo de Mark Kovacevich, Salesforce Connect Reporting, explicaba un workaround mediante programación en APEX:

  • Mostrando una List View con un Controller básico
  • VisualForce que con un Custom Controller muestra los registros y pinta un par de diagramas.

Continue reading “Reporting sobre una Arquitectura Híbrida: Amazon-Salesforce usando Salesforce Connect”

Salesforce Connect para acceder a datos en Amazon RDS via oData

Supongamos el siguiente caso de uso:

  • Queremos acceder a una gran cantidad de datos, que están fuera de nuestra ORG de Salesforce (presumiblemente en una base de datos en nuestro CPD)
  • Queremos acceder a estos datos, sin interfaces ni APIs
  • Queremos realizar reporting y análisis, cruzando esta base de datos con nuestros objetos declarados en nuestra ORG

Continue reading “Salesforce Connect para acceder a datos en Amazon RDS via oData”

Mi lista de Limitaciones en Integraciones de Salesforce

Creo que todos lo hemos sufrido -> “Salesforce no soporta FTP nativo” -> Mala cara.

Integración de Salesforce

De mi background como arquitecto de Integración esa afirmación sorprende, pero cuando conoces las capacidades de Integración de Salesforce y otros aspectos como su Seguridad, Fiabilidad, Documentación, Comunidad, etc., se te pasa el susto.

Mantengo una lista de las limitaciones (no en el aspecto negativo) que comparto por si pueden ser de ayuda a alguien y ahorrar algo de tiempo. Por favor, si hay alguna incorrecta (lo siento de antemano) o me faltara alguna, pido por favor mencionarlo, para tener una lista mejor.

  1. Salesforce no tiene un BUS de Integración propio (aunque con Platform Events, Lightning Connect, Streaming API, etc., se da respuesta a muchos casos de uso)
  2. Salesforce no soporta transacciones ACID
  3. Salesforce no soporta WS-Security (https://en.wikipe
  4. dia.org/wiki/WS-Security)
  5. Salesforce no implementa WS-ReliableMessaging (https://en.wikipedia.org/wiki/WS-ReliableMessaging) – que utilizando Outboung Messaging queda mitigado por la lógica de los reintentos cada 10” durante 24h
  6. Salesforce no soporta WS-Addressing, lo que complica el enrutamiento dinámico, en un escenario de Orquestacion empresarial con BUS de Integración disponible
  7. Con Outbound Messaging, no podemos invocar servicios REST (pero hy abierta Idea 08730000000DhyEAAS)
  8. Con Outbound Messaging si al cabo de 10” no hay respuesta se reenvia la petición (hay que certificar Idempotencia en el diálogo)
  9. Con Outbound Messaging solo es posible enviar datos de un objeto, aunque puede recibirse del objeto y de sus objetos relacionados
  10. Las Workflow Rules no son aplicables el borrado de un registro, por lo tanto, no podemos invocar a un servicio externo directamente (existe Workaround mediante trigger)
  11.  Entornos con grandes volúmenes de datos, típicos de un Patrón de Batch, que requieran el uso de BULK API tanto en modo Serial como Parallel, con o sin Chunking, son difíciles de abordar sin herramientas ETL de terceros (que habitualmente tienen un CTO elevado). Nosotros utilizamos Informatica Cloud, aunque ODI y estoy seguro que otras facilitan el uso de BULK API.
  12. Los certificados para comunicación segura con Salesforce deben renovarse anualmente (un poco tedioso para los compañeros de sistemas)
  13. No hay una versión oficial de Data Loader para Linux (es una herramienta de escritorio para Windows y Mac, pero la posibilidad de usarlo como carga masiva usando la BULK API en servidores empresariales Linux es siempre muy tentador y podría…)
  14. Salesforce no proporciona una herramienta de escritorio de ETL simple para que el equipo de negocio pueda cargar datos transformándolos mínimamente (Mass Loader/Update y herramientas como Jitterbit y Dataloader.io, pueden suplir en parte esta carencia)
  15. El Force.com Excel Connector dejó de soportarse hace mucho tiempo, y muchos usuarios preguntan por funcionalidad similar

No menciono los Governor Limits, pq creo que son protecciones necesarias en un entorno Multi-tenant, y en muchos casos, romperlos implica que la solución adoptada no es la adecuada.

Seguramente tenemos otras de muy bajo nivel técnico, pero mi intención es solo compartir mi lista y si es posible mejorarla.

*Si perteneces a Salesforce y lees este artículo, no fruncir el ceño por favor, no hay mejor elogio para un fabricante, que sus clientes utilicen sus herramietnas y la conozcan bien.

Crédito de la imagen para: elearningindustry.com

Data Loader en CLI en Linux/Unix/Mac OS

Data Loader es una herramienta creada en Java, con su código disponible en gitHub, lo que nos permite descargar su código, y montar sus artefactos mediante maven.

 

Todos conocemos la interfaz gráfica, pero como se explica en la documentación del mismo Repositorio de gitHub, también ofrece una clase (com.salesforce.dataloader.process.ProcessRunner) para la invocación por línea de comandos  (CLI – Command Line Interface) en cualquier sistema operativo que disponga de una máquina virtual Java instalada.

Esto permite, por ejemplo, planificar (mediante CRON) cargas/descargas desde servidores empresariales Linux/Unix, y haciendo uso de Bulk API (hay otros muchos casos de uso ).

Utilizar Data Loader via CLI es muy senzillo y se describe en la documentación de Salesforce. Resumiendo son 3 pasos:

  1. Generar nuestro password encritpado en 2 pasos
  2. Crear el mapeo de los campos entre el fichero que cargaremos y el objeto destino
  3. Crear el fichero process-conf.xml q contiene el detalle del proceso a ejecutar (Operación, uso de BULK API, etc.)

Pero si además, estos 3 pasos nos parecen complejos/tediosos existe una herramienta llamada CLIq, que nos automatiza esta generació. Esta herramienta también está disponible en gitHub.

En la imagen adjunto, se observa la ejecución que realizo en el Linux más raro que he tenido nunca, Bash de Ubuntu en Windows, gracias al Windows Linux Subsystem, lo que demuestra que mientras haya disponible una máquina virtual de Java instalada, podemos ejecutar Data Loader y conseguir una nueva herramienta en nuestro arsenal de Integración.

Ejecución de Data Loader en Bash Ubuntu Windows Linux Subsystem
Ejecución de Data Loader en Bash Ubuntu Windows Linux Subsystem

Documentación para profundizar:

Replication API para identificar cambios

La Replication API de Salesforce tiene como objetivo, identificar todos los objetos modificados duante un intervalo de tiempo.

Esta API SOAP, permite obtener en un interval de tiempo, aquellos objetos nuevos, modificados o eliminados en nuestra ORG.

Aunque también esto es posible accediendo a los campos Audit de los registros de los objetos, esta API tiene una característica muy importante: es accesible via 2 métodos de la clase Database: getUpdated(), getDeleted() y es transversal a todos ellos.

En concreto se obtiene, un array de IDs de los registros  nuevos/modificados o eliminados, y la hora en la que se ha realizado la consulta (para poder encadenar posteriormente otra).

Esta API, y supongo de ahí el nombre que le puso Salesforce (y que en mi opinión no es del identificador de su funcionalidad), está dirigida a la Integración de sistemas (obtener los cambios realizados para sincronizar con otro sistemas). Pero existen otros escenarios donde puede ser útil: la  auditoría de cambios durante un evento especial, reconciliación datos etc.

Ejemplo básico de utilización:

Captura de pantalla de uso de la Replication API de Salesforce
Captura de pantalla de uso de la Replication API de Salesforce

Enlaces para saber más: