SpaCy es una librería tremendamente potente, como bien señalas en el artículo, y por eso mismo puede darse el caso de que estemos matando moscas a cañonazos para casos donde lo que interesa es mucho mas sencillo como, por ejemplo, detectar parecidos "razonables" entre nombres de empresas o de personas ("ALTEA INTERNATIONAL", "ALTEA INT" ó "ALTA INTERNAT.") a la hora de hacer búsquedas o procesar formularios de los que nos llegan por Registro.
Para estas situaciones "sencillas" hay alternativas más fáciles de aplicar (p. ej. https://github.com/seatgeek/thefuzz) que utilizan métricas como la distancia de Levenshtein en lugar de requerir la descarga de modelos de lenguaje para el idioma y que ofrecen resultados más que aceptables.
En cualquier caso, para cada problema habrá que seleccionar herramienta más conveniente.
Hola, Alejandro:
SpaCy es una librería tremendamente potente, como bien señalas en el artículo, y por eso mismo puede darse el caso de que estemos matando moscas a cañonazos para casos donde lo que interesa es mucho mas sencillo como, por ejemplo, detectar parecidos "razonables" entre nombres de empresas o de personas ("ALTEA INTERNATIONAL", "ALTEA INT" ó "ALTA INTERNAT.") a la hora de hacer búsquedas o procesar formularios de los que nos llegan por Registro.
Para estas situaciones "sencillas" hay alternativas más fáciles de aplicar (p. ej. https://github.com/seatgeek/thefuzz) que utilizan métricas como la distancia de Levenshtein en lugar de requerir la descarga de modelos de lenguaje para el idioma y que ofrecen resultados más que aceptables.
En cualquier caso, para cada problema habrá que seleccionar herramienta más conveniente.
Un saludo y enhorabuena por el artículo :-)