El reconocimiento de entidades nombradas (NER) identifica menciones de personas, organizaciones, lugares y conceptos relevantes dentro de textos no estructurados mediante técnicas de procesamiento de lenguaje natural. Una vez detectadas estas menciones, la desambiguación determina de qué entidad específica se trata, distinguiendo entre homónimos, vinculándola a identificadores únicos y conectándola con su contexto regulatorio y ontológico correspondiente.
Argos resuelve la ambigüedad mediante cuatro mecanismos integrados que transforman menciones textuales en referencias inequívocas a entidades estructuradas:
1. Análisis contextual
El sistema procesa las estructuras sintácticas y semánticas circundantes para inferir la identidad correcta de cada entidad. No basta con detectar un término: es necesario determinar a qué referente específico apunta dentro de su contexto de uso.
Las señales contextuales incluyen posición sintáctica, términos adyacentes, marcadores temáticos y referencias cruzadas dentro del documento. El sistema evalúa estas señales de forma combinada para resolver casos donde un mismo término designa entidades diferentes según el ámbito discursivo.
Cuando aparece "Tribunal Supremo", Argos determina si la referencia apunta al tribunal supremo español, mexicano u otro según el contexto procesal que rodea la mención.
2. Integración con Grafos de Conocimiento
Las entidades no se emparejan con cadenas de texto sino con representaciones estructuradas de conocimiento. Cada desambiguación enlaza con recursos canónicos que aseguran consistencia semántica a través de colecciones documentales.
"Banco Santander" se vincula al CIF A39000013, se conecta con la supervisión de la CNMV y mapea sus obligaciones regulatorias bajo marcos específicos, distinguiendo la multinacional española de homónimos no relacionados.
3. Puntuación de confianza
Cada resolución de entidad lleva una puntuación de confianza probabilística derivada de señales contextuales, coherencia ontológica y validación de corpus. El sistema cuantifica la certeza de cada desambiguación.
Los casos ambiguos emergen para revisión. Si un documento menciona "Ley 3/2014" sin contexto adicional y existen múltiples leyes con esa numeración en diferentes jurisdicciones, el sistema asigna puntuación baja y marca el caso para validación.
4. Conciencia temporal
Las entidades evolucionan: la información se modifica, las organizaciones se reorganizan, las estructuras cambian. El sistema mantiene validez temporal, reconociendo que las relaciones entre entidades varían según el momento de referencia. Cada entidad se asocia con rangos de validez temporal.
Argos reconoce que "Ley 3/2014" modifica el "RDL 1/2007" y ajusta las relaciones entre entidades en consecuencia, permitiendo consultas que recuperen el estado normativo antes o después de cada modificación.