
La primera solución que se nos puede ocurrir es hacer las búsquedas empleando el like del lenguaje SQL de la base de datos relacional que usemos. Sin embargo, el like de SQL tiene varias limitaciones y además es lento, supone una carga para la base de datos y las coincidencias son muy limitadas no teniendo en consideración peculiaridades del idioma como tildes y aproximaciones. Para tratar de resolver estos problemas podemos usar la librería Hibernate Search que a partir de las clases de dominio y de las propiedades sobre las que queramos hacer búsquedas creará un indice de Lucene para realizar búsquedas más rápidamente y con mejores resultados.
Hibernate Search
Con Hibernate Search que se apoya en Lucene podemos obtener resultados que son aproximaciones a la palabra búsqueda, por ejemplo, si buscamos «refactor» podemos obtener coincidencias para las palabras «refactors», «refactored» y «refactoring» en el lenguaje inglés. Cada lenguaje tiene sus propias reglas de análisis para buscar estas aproximaciones y hay analizadores para la mayoría de lenguajes. Además, podemos obtener una aproximación de las coincidencias encontradas totales al estilo de como hace Google.
Continuando el ejemplo de como usar Hibernate en una aplicación «standalone» vamos a ver que hay que hacer para crear el índice y como realizar una búsqueda empleando Hibernate Search.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
package es.com.blogspot.elblogdepicodev.hibernate; | |
import java.util.Date; | |
import java.util.List; | |
import javax.persistence.EntityManager; | |
import javax.persistence.EntityManagerFactory; | |
import javax.persistence.Persistence; | |
import es.com.blogspot.elblogdepicodev.hibernate.dao.GenericDAO; | |
import es.com.blogspot.elblogdepicodev.hibernate.dao.GenericDAOImpl; | |
import es.com.blogspot.elblogdepicodev.hibernate.dao.GenericSearchDAO; | |
import es.com.blogspot.elblogdepicodev.hibernate.dao.GenericSearchDAOImpl; | |
public class HibernateSearch { | |
public static void main(String[] args) throws Exception { | |
// Obtener la factoría de sesiones | |
EntityManagerFactory entityManagerFactory = Persistence.createEntityManagerFactory("h2"); | |
EntityManager entityManager = entityManagerFactory.createEntityManager(); | |
try { | |
GenericDAO dao = new GenericDAOImpl(Producto.class, entityManager); | |
GenericSearchDAO sdao = new GenericSearchDAOImpl(Producto.class, entityManager); | |
entityManager.getTransaction().begin(); | |
dao.persist(new Producto( | |
"Tapestry 5", | |
"Rapid web application development in Java is a comprehensive guide, introducing Apache Tapestry and its innovative approach to building modern web applications. The book walks you through Tapestry 5, from a simple Hello World application to rich Ajax-enabled applications. Written by a core committer this book provides deep insight into the architecture of Tapestry 5. It not only shows you how to achieve specific goals but also teaches you the \"why\". You learn how to build modern, scalable Web 2.0 application with a component-oriented approach. This book also shows how Tapestry brings scripting language productivity within reach of Java developers without sacrificing any of Java's inherent speed and power.", | |
10l, new Date())); | |
dao.persist(new Producto( | |
"Raspberry Pi", | |
"The Raspberry Pi is a credit-card sized computer that plugs into your TV and a keyboard. It’s a capable little PC which can be used for many of the things that your desktop PC does, like spreadsheets, word-processing and games. It also plays high-definition video. We want to see it being used by kids all over the world to learn programming.", | |
20l, new Date())); | |
dao.persist(new Producto( | |
"Raspberry Pi User Guide", | |
"The essential guide to getting started with Raspberry Pi computing and programming. Originally conceived of as a fun, easy way for kids (and curious adults) to learn computer programming, the Raspberry Pi quickly evolved into a remarkably robust, credit-card-size computer that can be used for everything from playing HD videos and hacking around with hardware to learning to program! Co-authored by one of the creators of the Raspberry Pi, this book fills you in on everything you need to know to get up and running on your Raspberry Pi, in no time.", | |
30l, new Date())); | |
entityManager.getTransaction().commit(); | |
// Realizar la indexación inicial | |
sdao.indexAll(); | |
entityManager.getTransaction().begin(); | |
String[] terminos = new String[] { "Tapestry", "Pi", "guide" }; | |
for (String termino : terminos) { | |
// Realizar la búsqueda de texto completo | |
List<Producto> productos = sdao.search(termino, "nombre", "descripcion"); | |
print(termino, productos); | |
} | |
entityManager.getTransaction().commit(); | |
} catch (Exception e) { | |
e.printStackTrace(); | |
entityManager.getTransaction().rollback(); | |
} | |
entityManager.close(); | |
entityManagerFactory.close(); | |
} | |
private static void print(String termino, List<Producto> productos) { | |
System.out.printf("Resultados para «%1$s»\n", termino); | |
if (productos.isEmpty()) { | |
System.out.println("No se han encontrado resultados\n"); | |
} else { | |
System.out.printf(" # %1$-20s %2$8s %3$s\n", "Nombre", "Cantidad", "Fecha"); | |
int i = 1; | |
for (Producto producto : productos) { | |
System.out.printf("%1$3s %2$-20s %3$8s %4$tR\n", i, producto.getNombre(), producto.getCantidad(), producto.getFecha()); | |
++i; | |
} | |
} | |
} | |
} |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
package es.com.blogspot.elblogdepicodev.hibernate.dao; | |
import java.util.List; | |
import javax.persistence.EntityManager; | |
import org.apache.lucene.search.Query; | |
import org.hibernate.search.jpa.FullTextEntityManager; | |
import org.hibernate.search.jpa.Search; | |
import org.hibernate.search.query.dsl.QueryBuilder; | |
public class GenericSearchDAOImpl<T> implements GenericSearchDAO<T> { | |
private Class<T> clazz; | |
private FullTextEntityManager fullTextEntityManager; | |
public GenericSearchDAOImpl(Class<T> clazz, EntityManager entityManager) { | |
this.clazz = clazz; | |
this.fullTextEntityManager = Search.getFullTextEntityManager(entityManager); | |
} | |
@Override | |
public void indexAll() throws InterruptedException { | |
fullTextEntityManager.createIndexer().startAndWait(); | |
} | |
@Override | |
public List<T> search(String q, String... campos) { | |
QueryBuilder qb = fullTextEntityManager.getSearchFactory().buildQueryBuilder().forEntity(clazz).get(); | |
Query query = qb.keyword().onFields(campos).matching(q).createQuery(); | |
javax.persistence.Query persistenceQuery = fullTextEntityManager.createFullTextQuery(query, clazz); | |
return persistenceQuery.getResultList(); | |
} | |
} |
Otra alternativa a Hibernate Search es si la base de datos soporta «full text search», es decir, el motor de la base de datos soporta en la sintaxis de las sentencias SQL búsquedas de texto completo. En MySQL es posible pero hasta la versión 5.5 solo si la tabla está definida con MyISAM aunque a partir de la versión 5.6 es posible hacerlo con InnoDB que es el modelo de almacenamiento recomendado. La sintaxis de la sentencia SQL para MySQL sería:
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
select * from articles where match(title, body) against ('MySQL'); |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
select * from articles where to_tsvector(title, body) @@ to_tsquery('PostgreSQL'); |
Aunque con soluciones específicas del motor de la base de datos como esta perdemos la abstracción de la base de datos que proporciona Hibernate nos evitamos el tener que mantener el índice de Lucene con Hibernate Search.
Elasticsearch
Otra posibilidad muy interesante y tan buena o mejor que las anteriores es utilizar elasticsearch aunque al igual que con Hibernate Search debamos mantener e índice y los datos sincronizados pero eso probablemente sea tema para otra entrada :).
Referencia:
Código fuente búsqueda con Hibernate Search
Internacionalización (i18n) de campos con Hibernate
http://wiki.apache.org/solr/LanguageAnalysis
http://eraunatonteria.wordpress.com/tag/full-text-search/
http://dev.mysql.com/doc/refman/5.0/es/fulltext-search.html