domingo, 20 de octubre de 2013

Próximamente Taller de Pentaho

En el mes de noviembre se dictará un curso taller para aprender a utilizar las herramientas que conforman la suite de la versión comunitaria de Pentaho:
- Pentaho Data Integration (creación de procesos ETL)
- Mondrian Schema Workbench (creación de esquemas XML para definir cubos)
- Pentaho BI Server
- Pentaho Report Designer
-  Se utilizará como motor de base de datos PostgreSQL.



Para mayor detalle revisar la información del siguiente enlace:

Descargar el Temario del Taller de Pentaho

Consultas al siguiente correo: jlriveraramos@gmail.com



martes, 11 de septiembre de 2012

Aprender Pentaho Data Integration (Kettle) - Parte 3

En esta publicación se culmina el ejemplo de uso de variables, esta vez aplicado en el job que se creó en la segunda parte de tutorial. Además para que los registros sean guardados en una tabla, se muestra la creación de una conexión a una base de datos y los pasos a seguir para configurar el paso que permite realizar esta tarea.






Descargar Tutorial - Parte 3
Descargar archivos (transformaciones y jobs)

Curso Pentaho - Noviembre 2013

jueves, 26 de julio de 2012

Aprender Pentaho Data Integration (Kettle) - Parte 2

Continuando con la publicación anterior, se presenta ahora la creación de un job, que va a utilizar la transformación creada en la Parte 1 de este tutorial. Además se presenta un ejemplo básico de la configuración y uso de variables en Pentaho Data Integration. En la siguiente publicación se trabajarán con base de datos.





Descargar Tutorial - Parte 2
Descargar archivos (transformaciones y jobs)

Curso Pentaho - Noviembre 2013

domingo, 22 de julio de 2012

Aprender Pentaho Data Integration (Kettle)

En esta publicación se presenta la primera parte de un tutorial para utilizar el software ETL de Pentaho: Pentaho Data Integration o también conocida como Kettle.
En el tutorial se presenta el concepto de ETL (Extract, Transform, Load) y se presenta un ejemplo sencillo del uso de una de las herramientas ETL open source más utilizadas.
En las siguientes publicaciones el ejemplo será complementado, con la creación de jobs, uso de variables y la carga de información en base de datos.






Descargar Tutorial - Parte 1


Curso Pentaho - Noviembre 2013

domingo, 16 de agosto de 2009

Post # 6 - Crear cubo OLAP con CubeDesigner

En el post anterior ya se había creado la BD multidimensional, es momento entonces de crear el cubo OLAP (un archivo XML), para esto utilizaremos la herramienta gráfica Cube Designer (acceder a la siguiente página donde podrán obtener versiones para Windows, Mac o Linux). Debido al comentario de una lectora me enteré que los links para descargar Cube Designer ya no están activos, creo que debido a que dicho software ya estaba descontinuado. De todos modos acabo de subirlo a Megaupload y les dejo el link para descargarlo. Una vez descargado el archivo, se procede a descomprimir y se obtiene la carpeta CubeDesigner, para cargar simplemente ejecutamos el archivo CubeDesigner.exe. Para el caso particular de este tutorial, el gestor de base de datos utilizado es Postgresql, por lo que antes de ejecutar la herramienta se debe copiar el archivo postgresql-8.2-506.jdbc3.jar (*) en la carpeta CubeDesigner\lib\jdbc, a continuación seguir los pasos que se indican: (*) OBS. El archivo .jar lo puede encontrar entre los archivos de Pentaho BI Server, en la version 1.7.1 lo encuentra en pentaho-demo\jboss\server\default\lib; en la versión 2.0.0 en biserver-ce\administration-console\jdbc y en la versión 3.0.0 en administration-console\jdbc. IMPORTANTE: Antes de utilizar CubeDesigner, se debe editar el archivo publisher_config.xml que se ubica en ..\biserver-ce\pentaho-solutions\system\. Si es que el servicio Pentaho está iniciado, se debe reiniciar para que reconozca el cambio realizado. En el segundo post, en el punto 2.2 se recomienda la creación de una carpeta (ubicada en ..\biserver-ce\pentaho\pentaho-solutions) para guardar nuestros los archivos de nuestra propia solución. En el punto 6 de este post se hace referencia a esta carpeta y el modo correcto en que debe ser ingresado. Asegurarse de ir a la Consola de Administración (http://localhost:8099) Administration -> Services -> Solution Repository -> Refresh para que Pentaho "reconozca" esa nueva carpeta. 1. Desde CubeDesigner ir al Menú File -> New Cube Schema. 2. Ingresar los valores siguientes en el Inicio de la Configuración:

  • Cube Name: Ventas

  • Cube Description: Cubo para obtener los datos de ventas.

  • Select a data source. Como es la primera vez que se usa la herramienta se debe agregar un origen de datos, e ingresar los valores que se indican en la imagen siguiente (Los datos de conexión son los mismos que se usan cuando se crea un datasource en la Consola de Administración, sobre todo el valor que se ingresará en JNDI Name):

3. Realizar el Mapeo de Tablas.

  • Del panel inferior izquierdo seleccionar el esquema dmventas (esquema donde se hallan las tablas del modelo multidimensional). Asegúrese que el servicio Pentaho BI Server esté cargado.

  • Se muestran las tablas, y ahora arrastrarlas al panel derecho y pueden ordenarlas como se muestra en la imagen.

  • Ordenadas las tablas se procede a seleccionar los campos que se utilizarán para crear las medidas, tablas dimensión y de hechos.

4. Crear las Medidas (Create Measures)

  • En el combo se debe seleccionar la tabla thventas.

  • Se muestran las columnas de la tabla seleccionada pero solo seleccionar thventas.ca_ventas (Cantidad de ventas) y thventas.im_ventas (Monto vendido). Verificar que el tipo de agregación sea SUM y el formato sea #,##0.

5. Crear las Dimensiones (Create Dimensions). En la lista Source Fields realizar lo siguiente:

  • Seleccionar el campo tdvended.co_vended, luego click en Add New Dimension e ingresar como nombre de dimensión: Vendedor.

  • Seleccionar el campo tdtienda.co_tienda, luego click en Add New Dimension e ingresar como nombre de dimensión: Tienda.

  • Seleccionar el campo tdproduc.co_produc, luego click en Add New Dimension e ingresar como nombre de dimensión: Producto.

  • Seleccionar el campo tdfecven.co_fecven, luego click en Add New Dimendion e ingresar como nombre de dimensión: Fecha.


  • Al momento de ir creando cada dimensión puede ir editando algunas propiedades, como por ejemplo uniqueMembers, cambiando el valor por defecto a true; esto porque cada miembro de las dimensiones que se usan para este tutorial no presentan valores duplicados (ejm. no existen dos tiendas con el mismo nombre).

  • La dimensión fecha presentará una jerarquía de 3 niveles (año, mes y día), se puede agregar dichos niveles desde CubeDesigner, pero lo dejaremos así en este momento pues editaremos a mano el archivo XML más adelante (que a mi parecer es la mejor forma de aprender a crear nuestros cubos OLAP)
6. Pasos finales. En el último paso se puede apreciar las siguientes partes:

  • View XML. En la solapa XML Source se puede observar el código XML que se ha generado (schema files). En la solapa XML DOM se observa la vista en árbol de la estructura del cubo.

  • Publish. La publicación generará 3 archivos (Ventas.mondrian.xml, Ventas.properties, Ventas.xaction) .También se debe indicar donde se generarán los 3 archivos, en Publish Location ingresar /ventas/olap, la ruta completa donde su ubicarán los archivos es pentaho-solutions/ventas/olap (La carpeta ventas ya se había creado en uno de los post anteriores, se debe crear la carpeta olap).

  • El valor que aparece en Web Publish URL no es necesario modificarlo.

  • Además del Publish Password, la publicación solicita datos en Server Userid y Server Password se debe ingresar joe y password respectivamente.

  • Por último click en Publish.

  • Preview. Si el archivo XML que se ha generado, y el código XML que define las medidas, dimensiones y el cubo está correcta se podrá visualizar el resultado visualizando los datos del cubo desde la página xaction que se generó.
Además también se puede observar la página xaction desde Pentaho DesignStudio, para esto sólo se accede a la carpeta donde se realizó la publicación y poder revisar en la solapa Define Process y XML Source todo lo necesario del archivo generado. En la solapa Test se podrá realizar el acceso a la información de la base de datos multidimensional. IMPORTANTE. Como se indicó en el paso 5, el archivo XML que se generó lo iba a editar (pues la herramienta sirve de ayuda, pero es mejor editarlo a mano, de paso que se aprende más) por lo que recomiendo descargar y utilizar el archivo Ventas.mondrian.xml. Utilizando este archivo, al momento de visualizar la página Ventas.xaction se mostrarán los datos como en la figura siguiente: A partir de este primer reporte, se puede utilizar toda la funcionalidad que brinda Jpivot, como muestra el siguiente reporte donde se elige revisar solo una medida analizando por la dimensión Producto y obtener ver cual es el producto más vendido. O este otro reporte, donde se muestran las dos medidas y se analiza la dimensión Vendedor, así podemos observar que si bien el que vende más productos es CARLOS DIAZ, el que genera más monto en ventas es LUIS PEÑA.

Curso Pentaho - Noviembre 2013

Aprender Pentaho Data Integration (Kettle)
Post # 6 - Crear cubo OLAP con CubeDesigner
Post # 5 - Crear base de datos multidimensional
Post # 4 - Conexión a tu base de datos - II
Post # 3 - Conexión a tu base de datos
Post # 2 - Descarga e instalación
Post # 1 - Business Intelligence, introducción sobre Pentaho



miércoles, 17 de junio de 2009

Post # 5 - Crear base de datos multidimensional

En este post vamos a crear la base de datos multidimensional para posteriormente crear los cubos OLAP. Como ya se anotó en el post Conexión a tu base de datos, estamos trabajando sobre Postgresql, además se ha creado la base de datos VENTAS y se ha creado también el esquema ventas donde se tienen las tablas de lo que vendrían a ser las tablas transaccionales (OLTP). Si es que aún no tienen los datos de ejemplo, lo pueden descargar de los siguientes enlaces:
  1. Crear tablas de la base de datos OLTP.
  2. Cargar tablas de la base de datos OLTP.
A continuación desde pgAdminIII crear una conexión a la base de datos VENTAS y crear un nuevo esquema llamado dmventas. Aquí se crearán las tablas de lo que será nuestra base de datos multidimensional. Pueden descargar los archivos de los siguientes enlaces (y ejecutarlos también en el orden en que se muestran):
  1. Crear tablas de la base de datos multidimensional.
  2. Crear función adicional.
  3. Cargar tablas dimensión.
  4. Cargar tabla de hechos.
El modelo entidad relación se muestra a continuación (se ha utilizado el esquema estrella):

La base de datos creada presentará las dimensiones (dimensions): Tienda, Producto, Vendedor y Fecha de venta. Además presentará las medidas (measures): Monto vendido y Cantidad de productos vendidos.
Con este modelo podremos luego crear un cubo OLAP y realizar consultas que obtengan respuestas a consultas tales como:
  • Monto vendido del producto (Televisor) en la tienda (SAN ISIDRO) en un período determinado.
  • Monto vendido por cada vendedor de la tienda (SAN ISIDRO) para el producto (COMPUTADORA) en el período JUNIO 2009.

Curso Pentaho - Noviembre 2013

Aprender Pentaho Data Integration (Kettle)
Post # 6 - Crear cubo OLAP con CubeDesigner
Post # 5 - Crear base de datos multidimensional
Post # 4 - Conexión a tu base de datos - II
Post # 3 - Conexión a tu base de datos
Post # 2 - Descarga e instalación
Post # 1 - Business Intelligence, introducción sobre Pentaho



miércoles, 3 de junio de 2009

Post # 4 - Conexión a tu base de datos - II (v 2.0.0 y 3.0.0)

En el post anterior de Conexión a tu base de datos, vimos como acceder a nuestra propia BD, también se indicó que los pasos seguidos (particularmente para la configuración del JNDI) eran para la versión 1.7.1 de Pentaho BIS.

Este post busca cumplir la misma finalidad pero ahora está aplicado a las versiones estables 2.0.0 y 3.0.0. Ya se había comentado también en el post de Descarga e Instalación, que existen diferencias en la estrucutura de directorios de la versión 1.7.1 y las nuevas versiones (las dos últimas son muy similares). Observar la ubicación de la carpeta administration-console:



1. Crear Datasource
Esta vez crear nuestro origen de datos es mucho más sencillo, seguir los pasos que se indican a continuación:
  • Para empezar iniciar el servcio de Pentaho ejecutando el archivo start-pentaho.bat, que se encuentra en la carpeta biserver-ce.
  • Ahora ejecutar el archivo startup.bat, que se encuentra en la carpeta administration-console; esto permite que cargue la Consola de Administración, al cual podemos acceder desde una ventana del navegador escribiendo: http://localhost:8099
  • Para acceder los datos por defecto son: user: admin y password: password.
  • Ahora accedemos a Administración -> Data Sources -> Add Data Source.

  • A continuación ingresamos los datos correspondientes para crear el data source hacia nuestra base de datos. Una observación en este punto: Para este tutorial se tiene la BD en PostgreSQL (el nombre es VENTAS), y antes de iniciar el servicio de adminitration-console se debe copiar a la ruta: biserver-ce\administration-console\jdbc el archivo jar postgresql-8.2-506.jdbc3.jar. De lo contrario en el combo Driver Class no aparece la opción que se necesita.

  • De este modo ya tenemos configurado nuestro origen de datos cuyo nombre es Ventas (sólo la primera letra en mayúscula).
2. Crear nuevo archivo action sequence
También ser revisó en el post anterior, como crear proyectos usando Pentaho Design Studuio (PDS). En esta ocasión podemos seguir utilizando la versión 1.7.1 ó pueden descargar las versiones correspondientes de pentaho-design-studio 2.0.0 ó pentaho-design-stduio 3.0.0 RC2.
  • Al crear el proyecto no olvide descativar la ubicación por defecto y elegir la carpeta biserver-ce. (Es solo cuestión de orden y no es obligatorio)
  • Desde el proyecto, ubicarse crear una carpeta (nombre: ventas) dentro de pentaho-solutions.
  • En la carpeta ventas crear un nuevo archivo Action Sequence (nombre: vendedores).
  • Editar el archivo vendedores.xaction igual que en el post anterior.
  • Ir a la solapa Test y generar la URL y correr (Run) el archivo.
  • En la versión 2.0.0 puede ser que retorne un error que haga referencia a que el archivo no existe. Para solucionar este problema accedemos a la Consola de Administración (http://localhost:8099) vamos a Administration -> Solution Repository -> Refresh.

Curso Pentaho - Noviembre 2013

Aprender Pentaho Data Integration (Kettle)
Post # 6 - Crear cubo OLAP con CubeDesigner
Post # 5 - Crear base de datos multidimensional
Post # 4 - Conexión a tu base de datos - II
Post # 3 - Conexión a tu base de datos
Post # 2 - Descarga e instalación
Post # 1 - Business Intelligence, introducción sobre Pentaho