Juan Andrés Hermoso 11/07/2022 - 18:30

Hola, Alejandro:

SpaCy es una librería tremendamente potente, como bien señalas en el artículo, y por eso mismo puede darse el caso de que estemos matando moscas a cañonazos para casos donde lo que interesa es mucho mas sencillo como, por ejemplo, detectar parecidos "razonables" entre nombres de empresas o de personas ("ALTEA INTERNATIONAL", "ALTEA INT" ó "ALTA INTERNAT.") a la hora de hacer búsquedas o procesar formularios de los que nos llegan por Registro.

Para estas situaciones "sencillas" hay alternativas más fáciles de aplicar (p. ej. https://github.com/seatgeek/thefuzz) que utilizan métricas como la distancia de Levenshtein en lugar de requerir la descarga de modelos de lenguaje para el idioma y que ofrecen resultados más que aceptables.

En cualquier caso, para cada problema habrá que seleccionar herramienta más conveniente.

Un saludo y enhorabuena por el artículo :-)

* Indica los campos obligatorios
El contenido de este campo se mostrará públicamente
Introduce un correo electrónico válido. Ejemplo: ejemplo@test.com
El contenido de este campo se mantiene privado y no se mostrará públicamente.
Datos.gob.es quiere favorecer la participación de los usuarios a través de comentarios que contribuyan a enriquecer los contenidos publicados en la web. Los comentarios recibidos serán revisados y aprobados por el equipo gestor del portal para garantizar la calidad. Se reserva el derecho de eliminar los comentarios que considere inadecuados. No se publicarán, por tanto, comentarios que incluyan insultos, descalificaciones o consideraciones no relacionadas con el contenido en cuestión. Tampoco se publicarán comentarios que incluyan datos personales o que permitan identificar a personas fallecidas.