Panel Información

Utilizamos cookies propias y de terceros para mejorar tu experiencia de navegación. Al continuar con la navegación entendemos que aceptas nuestra política de cookies.

GNOSS Products: oferta de servicios y productos GNOSS

facetas

86 resultados

Dentro del marco del ForoTech 2016 realizado en la Universidad de Deusto el pasado 10 de marzo, el DeustoForum acogió la conferencia ‘El Prado en la Web: la transformación digital del museo del Prado’ en la que el ponente principal fue el Director del Museo del Prado, Miguel Zugaza, acompañado por Ricardo Alonso Maturana, fundador y CEO de GNOSS, empresa tecnológica que ha llevado a cabo el proyecto y cuya tecnología permite la construcción y explotación de los principios de la web semántica.

En este encuentro se plantearon las bases de este proyecto de transformación digital cuyo objetivo ha sido extender el museo a la web con el fin de poner a disposición del público un entorno más intuitivo y personalizado en el que cada visitante pueda configurar su propia experiencia.

La iniciativa pretende crear un recorrido único y adecuado a cada usuario, basándose en una exitosa tecnología de objetos semantizados y enlazados que permite la interrelación de más de 10.000 obras de arte y más de 1.800 autores de su colección con otros activos de su patrimonio de conocimiento (más de 20.000 accesos a conferencias, actividades, exposiciones, documentos, archivos, etc.) en un gran grafo de conocimiento.

...

Salvador Valdés, director de La Aventura del Saber (La 2), entrevista a Ricardo Alonso Maturana, fundador y director de GNOSS y Didactalia. En la entrevista se analiza el concepto de Web Semántica en Educación, así como los proyectos Didactalia, MisMuseos.net y Lecciones, entre otros.

Vídeo del programa completo: la entrevista se puede visualizar desde el minuto 29:40 (30 de mayo de 2013).

...

En este video, Ricardo Alonso Maturana, fundador y CEO de GNOSS, presenta las ventajas que la web semántica puede aportar en el ámbito de la redes sociales, partiendo de una mejora de los métodos de recuperación de la información gracias al Linked Data, así como una búsqueda más efectiva de los recursos compartidos. Este video se encuadra dentro del proyecto de la plataforma formativa para emprendedores UNIMOOC, impulsada por varias universidades españolas y grandes instituciones privadas.

...

Como parte del proyecto de la plataforma formativa para emprendedores UNIMOOC, impulsada por varias universidades españolas y grandes instituciones privadas, Ricardo Alonso Maturana, impulsor y CEO de GNOSS, explica el valor de los equipos interdisciplinares como motor de desarrollo para un proyecto con una perspectiva global y abordado desde distintos enfoques.

...

Rodolfo Carpintier entrevista a Ricardo Alonso Maturana, fundador y CEO de GNOSS, y a Luis Cacho, cofundador de Arsys, en relación al desarrollo de la web semántica o web 3.0, tomando como referencia la plataforma GNOSS que se nutre de esta tecnología. En la primera parte de la entrevista se plantea como puede desarrollarse un proyecto emprendedor de esta envergadura establecido fuera de los principales núcleos empresariales, como pueden ser Madrid y Barcelona, y es en este sentido donde radica una de las grandezas de los nuevos medios de Internet, permitir al individuo proyectarse en lo global a través de la red.

A lo largo de la entrevista se profundizará en el potencial de la web semántica poniendo el punto de mira en la tecnología desarrollada por GNOSS que permite incorporar en el ámbito empresarial una dimensión de gestión del conocimiento, así como fomentar un entorno de aprendizaje social y colectivo.

...

Reportaje realizado por el programa Cámara Abierta de TVE, en el que se presenta la plataforma GNOSS como una herramienta de ‘conocimiento conectado’ a través de la cuál generar redes sociales enlazadas en las que vincular a todos sus participantes para crear un entorno de aprendizaje colaborativo. Ejemplo de ello es Didactalia.net, una comunidad educativa de datos enlazados, capaz de generar automáticamente contextos que promueven el aprendizaje.

...

El ministro de Educación, Ángel Gabilondo, visita las instalaciones de GNOSS como referente empresarial en el ámbito de la innovación educativa, con el fin de destacar la necesidad de vincular las nuevas tecnologías al sistema educativo y promover así su modernización.

En esta línea, la plataforma educativa Didactalia, soportada por la tecnología GNOSS, representa una práctica e intuitiva herramienta de aprendizaje gracias a sus más de 100.000 recursos y contenidos, estructurados según los estándares de la web semántica y el Linked Data.

...

EL CSIC (Consejo Superior de Investigaciones Científicas) ha sido el encargado de acoger el Foro Internacional del Español 2.0 (FIE 2.0) en un encuentro concebido para el diálogo, contacto e intercambio de ideas entre distintas empresas e instituciones pertenecientes al sector de la industria cultural y digital, desde una aproximación cercana a internet y al desarrollo de las tecnologías de la información. Bajo el lema ‘El español, una alternativa global’ este foro pretende impulsar el español como un valor cultural y económico, con el fin de promover su adaptación al nuevo ecosistema tecnológico internacional.

En el marco de este evento tuvo lugar el debate ‘¿Puede haber un internet del español?’, mediado por Francisco Sierra Hernando, Director de Contenidos de Atresmedia Digital, y en el que participaron figuras destacadas del ámbito empresarial español; Ricardo Alonso Maturana, Fundador y Director de GNOSS.COM y DIDACTALIA.NET, Josep Salvatella, Consejero Delegado RocaSalvatella, Carlos Barrabés, Presidente de www.barrabés.biz, Alvaro Recio Diego, Personal Investigador de la Unidad I D i de Cursos Internacionales de la Universidad de Salamanca.

El español constituye hoy en día la tercera lengua en Internet, detrás del inglés y el chino, mientras que ocupa el segundo lugar en el ámbito de las redes sociales. Estos datos desvelan unas perspectivas positivas de cara a erigir un Internet del español. A nivel cuantitativo la presencia de esta lengua en el entorno digital es indudable, con una presencia del 50% respecto a la tasa de penetración. Sin embargo es necesario mejorar el aspecto cualitativo, teniendo en cuenta especialmente los contenidos publicados en el entorno web.

Tal como expresa en este debate Ricardo Alonso Maturana, fundador y CEO de GNOSS, el modelo digital de datos enlazados abre un nuevo abanico de posibilidades para el español en internet, “un internet de datos que no habla ningún idioma, es algo que una máquina puede interpretar correctamente” lo que lleva a plantearse la pregunta “¿Existe un internet de datos que pueda ser desarrollado por industrias del español?”. Este debate trata de dibujar en esta línea los retos a los que puede hacer frente esta lengua en un entorno liderado por agentes y empresas de habla inglesa.

...

El I Congreso Iberoamericano sobre redes sociales IRedes, celebrado en Burgos, reunió el pasado febrero de 2011 a profesionales y expertos en este ámbito con el objetivo de analizar la evolución, desarrollo y perspectivas de futuro de las redes sociales. El primer congreso de IRedes centró el debate en tres grandes temas; la evolución de la tecnología unida al desarrollo social, la participación y generación de contenidos llevada a cabo por los usuarios de estas redes y la presencia de nuevos profesionales y empresas en este ámbito.

Este video recogen las ponencias de varios proyectos emprendedores en el ámbito de las redes sociales; Javier Celaya, socio-fundador de Dosdoce.com, Mario Tascón, periodista y consultor, Emilio Márquez, emprendedor y CEO de Networking Activo, Chiqui Esteban, autor del mapa IRedes  y director de Nuevas Narrativas de lainformacion.com, Diego Fernández Malvido, vicepresidente de la Fundación Burgos 2016, Ricardo Alonso Maturana, fundador y CEO de GNOSS, Miguel Angel López Peña, director de innovación y desarrollo de SATEC y Millán Berzosa, periodista y experto en comunicación digital, dircom de ideas4all y autor de mberzosa.com.

...

En la configuración de un Destino Turístico Inteligente hay que tener presente la necesidad de aumentar el valor de los contenidos digitales que representan la oferta de dicho destino turístico: hoteles, restaurantes, paisajes, rutas, experiencias, eventos, actividades, noticias, etc.

Incrementar el valor de los contenidos digitales significa que sean más conocidos, más accesibles, estén mejor posicionados en internet para los motores de búsqueda y puedan enlazarse para ofrecer al turista una experiencia web donde la búsqueda se convierta en una ruta de aprendizaje y descubrimiento. En definitiva, una experiencia web enriquecida que estimule y genere apetencia por, no solo pasar más tiempo en la página web del destino turístico, sino por acabar visitando físicamente el lugar. Dicho de otro modo, aumentar la tasa de conversión, pasando de la mera búsqueda e indagación de información, a la visita, consumo y compra en el destino específico.

Si un Destino Turístico Inteligente es un destino turístico innovador, consolidado sobre una infraestructura tecnológica de vanguardia, que garantiza el desarrollo sostenible del territorio turístico, accesible para todos, que facilita la interacción e integración del visitante en el entorno e incrementa la calidad de vida de su experiencia en el destino, necesitamos plataformas y aplicaciones que actúen en la capa más externa, la más cercana al usuario final, en la consolidación de “una infraestructura tecnológica de vanguardia”.

Es preciso incorporar “inteligencia” para el lugar donde se genera la oferta o el producto turístico (destino turístico) en todos aquellos proyectos digitales donde se quiere proporcionar una experiencia web que estimule el conocimiento, descubrimiento y finalmente la visita del destino turístico señalado, y hacerlo, como detallaremos a continuación, desde el eje tecnológico.

Una de las alternativas es aplicar tecnología semántica que permita generar un Grafo de Conocimiento con los contenidos digitales de la oferta turística en cuestión, y explotaciones de los contenidos que no son obvias ni posibles con las tecnologías tradicionales actuales.

De esta forma, cuando un usuario publica su información en una web “semántica”, el usuario estaría generando, de forma nativa, datos representados semánticamente en RDF/OWL, datos “comprensibles” para las máquinas, datos que pueden enlazarse con datos conformando un Grafo de Conocimiento turístico (Tourist Linked Data). A partir de aquí, estos datos deberían trabajar en su beneficio ofreciéndole, por ejemplo, mejores sistemas de recuperación de la información mediante búsquedas facetadas que emulen el modo de razonar humano; generar contextos pertinentes, personales y documentales, para una determinada información y avanzados sistemas de recomendación.

 

CREANDO UN GRAFO DE CONOCIMIENTO TURÍSTICO CON EXPLOTACIONES MÁS EFICIENTES: BUSCADORES FACETADOS SEMÁNTICOS COMO CLAVE DE USABILIDAD Y ACCESIBILIDAD

En internet estamos transitando de una Web de Documentos, que es la que actualmente vemos, a una Web de Datos, que es lo que está emergiendo, abriéndose la posibilidad de ir conformando un gran Grafo de Conocimiento general, también turístico, con explotaciones de los datos que hasta el momento no eran posibles con los actuales sistemas de edición y publicación de contenidos digitales (CMS, redes sociales, etc).

En lo operativo esto se concreta en la mejora de los procesos de interacción de las personas con las máquinas (Human-Computer Interaction) y, por ende, en la mejora de la experiencia web para los usuarios.

¿Qué sucedería si los datos turísticos fueran representados semánticamente en RDF/OWL? Sucede que pueden conformar un grafo de conocimiento turístico, y pueden ser explotados mediante un sistema de interrogación del grafo de valor para los usuarios, es decir, podemos ofrecer una experiencia de búsqueda que se convierte en una ruta de aprendizaje y descubrimiento de conocimiento. Hablamos entonces de buscadores facetados y metabuscadores como el que es posible observar en el trabajo llevado a cabo para el Portal de Turismo de La Rioja (www.lariojaturismo.com), donde se ha aplicado la Plataforma y el gestor de contenidos semántico GNOSS, o en grandes portales web como Amazon, Booking, E-Bay, etc.

Estos buscadores facetados se caracterizan por:

  • Ofrecer una sumarización basada en propiedades que caracterizan específicamente a los resultados mostrados. Por ejemplo, si se trata de mostrar hoteles, las propiedades mostradas y sumarizadas podrían ser lugar, tipo de hotel, número de estrellas, precios, puntuación del público, servicios añadidos, etc.
  • Cada posible valor de la propiedad es una opción de refinamiento de la búsqueda. Por ejemplo, si en www.lariojaturismo.com busco restaurantes, el buscador facetado muestra como facetas para seguir indagando los, lugares, tipos de comida, tipos de menú, categoría, etc. Eligiendo uno de ellos, por ejemplo “menú de maridaje”, se obtendrían 116 restaurantes, si busco los que hay en Haro con este tipo de menú obtengo cuatro. De ellos, observamos que uno solo es de “nueva cocina” (restaurante Arrope): precisión y pertinencia
  • Las opciones de refinamiento ofrecen resultados posibles. En el ejemplo anterior, no es posible elegir como tipo de comida “cocina internacional”, ya que ninguno de los restaurantes de Haro ofrece cocina internacional. Es un defecto frecuente de algunos sistemas de búsqueda la posibilidad de combinar opciones de búsqueda que no devuelven resultados.

Podríamos afirmar que este tipo de sistemas de recuperación de la información donde facilitamos al usuario escoger entre alternativas posibles emulando el modo de razonar humano, por restricciones, aprendiendo mientras busco, es un sistema que nos permite actuar de modo más “inteligente”. Recordemos que inteligencia, etimológicamente, indica la cualidad (-ia) del que (nt) sabe escoger (legere) entre (inter-) varias opciones. Inteligente, sería en consecuencia, quien sabe escoger la mejor alternativa entre varias.

UN GRAFO DE CONOCIMIENTO QUE CONTIENE MÚLTIPLES Y DIVERSOS SITES PERSONALIZABLES

Además de lo tratado hasta ahora, la publicación dinámica semántica (Semantic Dynamic Publishing) de un Grafo de Conocimiento contiene todas las páginas webs posibles que se pueden realizar con ese contenido y, lo que es aún mejor, estas se pueden mostrar automáticamente si existe un sistema de interrogación adecuado. Así por ejemplo, el grafo de conocimiento del turismo en La Rioja, incluye las páginas web de las bodegas de La Rioja, de los hoteles de Logroño, de los campings de la Rioja Alta, de los restaurantes con menú, de las actividades y festejos, etc.

Un grafo de conocimiento, en la medida en la que anota o identifica las entidades de los contenidos, permitevalorizar esos mismos contenidos para fines distintos de aquellos para los que originalmente fueron concebidos. Así, por ejemplo, buena parte del trabajo que se realiza en un museo puede tener también un valor turístico. Esos contenidos museísticos podrían eventualmente tomar parte o enlazarse a través de sus entidades con grafos cuyos contenidos primarios fueron pensados para el turismo, de tal forma que cuando un turista expresa su interés por una ruta cultural, por ejemplo, el monasterio de San Millán de la Cogolla pudiera aparecer aquella información, contenidos e imágenes existentes en el Museo de La Rioja o en el Museo del Prado, sobre San Millán. A esto se le denomina Linked (Open) Data. Datos abiertos y enlazables.

A su vez, y dado que un grafo de conocimiento dota de un corazón semántico a una gran base de conocimiento, resulta posible desarrollar un potente negocio basado en ofrecer a cada usuario de manera proactiva información ad hoc y contextual asociada con sus intereses, en especial a aquellos que están registrados o son suscriptores y cuyos datos, de hecho, pueden ser incorporados como parte del propio grafo de conocimiento. La capacidad para personalizar la información y por ende la publicidad constituye una de las principales posibilidades de un grafo de conocimiento que represente también de manera semántica a los usuarios y sus interacciones.

NUEVOS RELATOS TURÍSTICOS BASADOS EN DATOS

Otra de las ventajas que ofrece la representación semántica de los contenidos turísticos tiene que ver con la con la posibilidad de generar nuevos relatos turísticos utilizando la capacidad de las máquinas para realizar inferencias automáticas sobre el conjunto de relaciones explícitas entre el conjunto de entidades que conforman el grafo y de presentarlo de un modo útil y atractivo para los usuarios.

Los relatos basados en sistemas de inferencia automáticos posibilitan desarrollar un discurso a partir del interés manifestado por una persona por un conjunto de entidades, mostrando entidades relacionadas de diverso modo con la requerida y extendiendo, por tanto, con posibilidades nuevas de descubrimiento de conocimiento y navegación, las posibilidades de diálogo y conversación entre las personas y los contenidos representados en el grafo de conocimiento.

Imaginemos una ruta turística que trata del Camino de Santiago en Galicia, la máquina puede inferir de las relaciones implícitas en el grafo su relación con otros lugares que también forman parte del Camino de Santiago, o con rutas de componente religioso, o con los monumentos más significativos de la ruta del Camino de Santiago, o con aquellos restaurantes o establecimientos que disponen de menú de Peregrino, y abrir a partir de cada uno de esos atributos, hilos de inferencia y, por ende, de exploración y descubrimiento de conocimiento. Un relato de esta naturaleza propone un viaje “digital” significativo y sugerente, y alienta la curiosidad y el instinto por saber más y aprender. En definitiva, visto desde este modo de generación de relatos automáticos, un grafo multiplica las posibilidades de permanencia y de páginas vistas en el portal turístico.

...

Hablar hoy día 5 de mayo de 2015 de transformación digital de las organizaciones parece especialmente adecuado dadas las noticias que colman los periódicos del día y que nos hablan del nombramiento de Carlos Torres Vila como Consejero Delegado del BBVA, en sustitución de Angel Cano. Según se puede leer, junto con Torres Vila se han realizado nada menos que 13 nombramientos y se ha producido la salida de 6 antiguos directivos, lo que promete un cambio de calado, con el fondo de la transformación digital del banco como mayor prioridad. En la noticia publicada por El País se dice que " González (Lugo, 1944) ha transmitido a los ejecutivos que quiere que la entidad abandone la zona de confort actual para conseguir que el BBVA deje de ser un banco para convertirse en un elemento tecnológico de la industria bancaria". Todo apunta a que se trata de una apuesta de largo alcance llamada a remover el espacio de negocio y competencia del sector financiero y a la que deberán responder el resto de los jugadores más pronto o más tarde.

Según creo, la transformación digital de una empresa o de un negocio tiene mucho que ver con el hecho de que estamos desarrollando, por primera vez de manera consistente y masiva, un conjunto de tecnologías que posibilitan que las máquinas y los sistemas interpreten de manera razonablemente correcta los recursos generados por las personas, tanto aquellos que se crean con un carácter intencional (los documentos), como aquellos otros que se registran de manera automática y que constituyen nuestra huella digital. En la práctica y en la medida en la que estamos también en un proceso de webificación de nuestros sistemas de información, lo que estamos haciendo es suplementar el casi colmatado internet de documentos (HTML), dotándole de una capa de representación del contenido interpretable por las máquinas. A este nuevo internet lo denominamos Web de los Datos e incluye los datos producidos por las personas y aquellos registrados por diversos sensores y que representan el modo en el que funcionan las cosas (generalmente en su relación con las personas) .

Este nuevo internet está desplegándose en todos los sectores de actividad, cuyos negocios se están viendo transformados profudamente, y se verán aún más en el futuro, por este enfoque; así podemos hablar de una educación basada en datos, de una cultura basada en datos, de un turismo basado en datos, de una industria o un determinado proceso industrial basado en datos o de banca basada en datos. Todos estas denominaciones apuntan al hecho de que las máquinas, nuestro sistemas, pueden construir un grafo de conocimiento subyacente a cada espacio o ámbito de actividad humana y que en la explotación de ese grafo hay nuevas posibilidades económicas y de negocio. 

La Web de los Datos se está construyendo sobre un conjunto de tecnologías y lenguajes técnicos que en su conjunto conocemos como Web Semántica. El modo en el que se expresa la Web Semántica como Web de Datos se conoce como Web de Datos Enlazables (o Enlazados) o Linked Data Web en inglés. Lo que sugiere esta denominación es que nuestros sistemas pueden enlazar datos con datos, información con información de manera automática o cuasi-automática. El resultado es un grafo de conocimiento, en el cual los datos se acoplan, conectan o vinculan de manera automática sí (esto es sin el concurso de un editor o de un lector), pero sobre todo significativa para las personas que de ese modo ven multiplicada por un factor enorme sus capacidades de lectura, interpretación y descubrimiento del conocimiento. En suma, los grafos de conocimiento y los modelos de interrogación que podemos desarrollar sobre ellos, son la condición tecnológica para que las personas, los grupos y las organizaciones puedan desarrollar procesos eficientes de gestión de conocimiento (que incluye modelos de interrogación, de enriquecimiento de la información, de inferencia y razonamiento y, por ende, de descubrimiento de conocimiento) en un mundo (digital) donde la información es hiperabundante y las capacidades humanas de interpretación crecientemente limitadas.

El abordaje técnico que posibilita esta transformación de documentos (legibles para las personas)  en datos (legible por una máquina) se realiza por medio de ontologías o vocabularios, que recogen y describen en un lenguaje de programación (OWL u Ontology Web Languaje) un conjunto de entidades (junto con sus atributos) que representan un ámbito de la realidad y, por ende, un ámbito de conocimiento. No se trata, cono se ve, de una estrategia basada en el procesamiento del lenguaje natural (aunque recurra a algoritmos de aprendizaje y estadística basada en Bayes para algunos de sus procesos, como es el de la anotación semántica o de reconocimiento de las entidades que contiene un determinado texto), porque las máquinas sólo interpretan correctamente aquello que puede ser anotado o identificado por la ontología (las entidades y sus atributos), pero cuando lo hacen, lo hacen de manera indubitable. Eso permite computar, a partir de la representación de un número dado de recursos digitales relativos a un ámbito de conocimiento o realidad dado, el conjunto de relaciones implícitas entre ellos, lo que en la práctica supone activar procesos de conocimiento que en sí mismos ya son de un gran valor económico.

Imaginemos el caso de que una empresa tuviera representadas las personas de su negocio (clientes, empleados) mediante FOAF (Friend of a Friend), una ontología que posibilita que los sistemas distingan el nombre, los apellidos y eventualmente otros atributos personales de cualquier otra posible secuencia de caracteres que contenga un texto; eso significa que la secuencia de caracteres J-o-s-e-f-i-n-a- -M-o-l-i-n-a se convierte para las máquinas que computan información en una persona con un nombre propio (Josefina) y un apellido (Molina); si además disponemos de algunos eventos representados del mismo modo, esto es de acuerdo con estándares de la Web Semántica, tales como, por ejemplo, el evento [comprar con tarjeta de crédito] (dentro del cual podríamos distinguir a su vez la cantidad, el lugar y el tipo de comercio donde se realiza la compra) estaríamos en condiciones de poder empezar a desarrollar modelos de interrogación sobre esas colecciones de datos que nos pueden llegar a proporcionar un conocimiento de calidad acerca de los patrones de comportamiento y los estilos de vida de las personas y que, en consecuencia, nos permitirían segmentarlas en audiencias y eventualmente desarrollar una cartera de productos y servicios adecuados a esos segmentos y, en el límite, personalizados o individualizados.

Por supuesto, podríamos enlazar nuestros datos de Josefina Molina con datos de terceros, que podrían ser también de consumo (como por ejemplo los desplazamientos en avión, su frecuencia y destino, su consumo de teléfono, la naturaleza  y patrón de las llamadas, etc...) o de otro tipo (los artículos científicos, supongamos, que ha escrito Josefina Molina y que están recogidos en Elsevier o en Web of Knowledge). Eventualmente una web de datos podría identificar todo lo relacionado con Josefina Molina de manera indubitable. Un caso sencillo de descubrimiento de conocimiento, que por cierto es ya real o está muy cerca de serlo podría ser éste: Elsevier dispone en su vasta base de conocimiento de artículos científicos que contiene uno que describe el caso de un médico de urgencias de un hospital de provincias polaco que ha utilizado un determinado principio activo para paliar los síntomas más insidiosos de tal o cual enfermedad; Pfizer, por su parte, ha representado semánticamente el conjunto de su actividad investigadora y, por ende, sus ensayos clínicos y conoce por tanto qué principios activos experimentó y para qué, así como qué experimentos tuvieron éxito y cuáles no; en concreto el del principio activo al que nos estamos refiriendo no lo tuvo. Sin embargo, al enlazar los datos de su base de conocimiento con la de Elsevier puede descubrir, a partir de una experiencia empírica marginal realizada en un lugar periférico de la investigación clínica sobre un principio activo concreto que probablemente nadie ha citado y muy pocos han leido, una aplicación eventualmente muy prometedora para un principio activo cuya vida comercial estaba en vía muerta. Por cierto, la industria farmacéutica está haciendo un gran esfuerzo en este campo y también las grandes editoriales científicas. Elsevier, que es junto con World of Knowledge el principal contenedor de la producción científica mundial, tiene representada semánticamente toda su base de conocimiento; por su parte el conjunto de la industria farmaceútica utiliza Uniprot una base de conocimiento sobre proteínas y enzimas que contiene más de 20.000M de triples (el modo en el que se representa la información en Web Semángica) y los diferentes grandes actores del sector están trabajando activamente en su propias bases de conocimiento. Pero lo que merece la pena subrayar aquí se parece mucho a lo que expresaba Richard Feynman en 1959, el año que ganó el Premio Nobel durante la reunión anual de la Sociedad Física Americana celebrada en el Instituto de Tecnología de California (CALTECH), en una célebre conferencia cuyo título podríamos traducir como "Hay mucho espacio por debajo" (There´s Plenty of Room at the Bottom): "Yo imagino que los físicos experimentales deben mirar a menudo con envidia a hombres como Kamerlingh Onnes, quien descubrió un campo como la baja temperatura, la cual parece ser insondable y en el cual uno puede ir abajo y abajo. Un hombre tal es entonces un lider y tiene algún monopolio temporal en una aventura científica. Percy Bridgman, al diseñar una manera de obtener presiones mayores, abrió otro campo nuevo y fue capaz de moverse en él y guiarnos alrededor. El desarrollo de un vacío aún mayor fue un contínuo desarrollo de la misma especie..." (Traducción: Pablo Martín Agüero). Hay mucho espacio por debajo cuando comenzamos el desarrollo de una Web de Datos sea en el ámbito que sea, en un proceso industrial, un departamento de Marketing, una Universidad, un Museo...y muchas oportunidades de ganar nuevo espacio para los negocios, la gestión cultural o el impulso a la educación. De pronto mucho conocimiento marginal y aparentemente poco útil adquiere un nuevo vigor en el marco de un nuevo proceso de generación y descubrimiento de conocimiento.

Dato, cuando se define desde este punto de vista técnico, debe entenderse en este contexto que hemos expuesto como la porción mínima de información interpretable correctamente por una máquina. Nuestro punto de vista sugiere que si los datos no están domesticados o interpretados mediante ontologías y vocabularios entonces resultarán poco útiles o difícilmente manejables, especialmente cuando se trate de datos muy masivos (Big Data). El disponer de datos representados del modo que hemos descrito, esto es, de "datos enriquecidos", permite desarrollar sistemas de interrogación basados en razonamiento natural especialmente útiles para las que personas conectan el conocimiento de tal manera que, como consecuencia, pueden explicitarse relaciones hasta ahora ignoradas u ocultas entre los datos que lo conforman. Este nuevo ámbito de conocimiento y aplicación que se ocupa de los modelos humanos de interrogación sobre grandes cantidades de información organizadas en un grafo se denomina Human Computer Interaction (HCI) y es una de las disciplinas emergente más interesantes en el ámbito de las IT, pues determina el modo en el que las personas terminarán por dar valor, utilizar e interrogar a los datos y, por ende, determina el conjunto de aplicaciones para usuario final que pueden desarrollarse sobre la base de la Web de los Datos. Por que, conviene subrayarlo, la Web de los Datos no es una Web para las Máquinas, sino la web que las máquinas devuelven a las personas cuando aquellas pueden razonablemente comprender los contenidos que producimos. Los modelos HCI que explotan las posibilidades de la representación semántica precisan, a su vez, de modelos de computación que posibiliten la realización de inferencias o de procesos iterados de interrogación sobre los datos. Y, finalmente, se precisa de una arquitectura de software que facilite una ejecución rápida o industrial de los proyectos. Nada más.

...

LAS WEB SEMÁNTICAS DE LA WEB: EL NEGOCIO DE CONSTRUIR Y EXPLOTAR GRANDES GRAFOS DE CONOCIMIENTO ESPECIALIZADOS

Desde que en 2001 Tim Berners-Lee escribiera Semantic Web en Scientific American, "Web semántica" hace referencia a un lenguaje técnico de marcado, así como, posteriormente, a un conjunto de estándares de interrogación de bases de datos (como SPARQL) que tienen como finalidad posibilitar la publicación de los recursos digitales que generan las personas de tal modo que resulte interpretable o inteligible por las máquinas o sistemas. Se trata, por tanto, de un lenguaje para máquinas. En este sentido, la web semántica no es lo opuesto a la web no semántica o que precisa un emisor y un receptor humanos o, si se prefiere, la web HTML (HyperText Markup Language); si consideramos a esta última como el haz de la web, aquella sería su envés. De este modo, todo recurso digital podría tener dos caras, la que puede leer o interpretar una persona, esto es la que aparece cuando solicitamos una página web y que se muestra o publica en HTML y aquella otra que pueden interpretar las máquinas y que se publica utilizando OWL-RDF(Ontology Web Languaje-Resource Description Framework).

Ya en el artículo seminal al que me refiero se apuntaban algunos de los atributos esenciales de esta nueva forma de publicar en la World Wide Web, como son el de expresar el significado de los recursos mediante ontologías, representar el conocimiento entendiendo éste como la agregación o el enlazado (linked) de recursos distribuidos o no centralizados, facilitar la recuperación de la información posibilitando modos de interrogación más próximos al modo intencional e iterado en el que funciona la mente humana y, finalmente, acelerar la evolución del conocimiento humano al facilitar la transición o transformación de la nuevas ideas seminales frecuentemente producidas por un individuo o grupo pequeño, que viven en el marco de una subcultura original, en ideas comunes o establecidas con gran amplitud cultural. En la visión original de la web semántica, los agentes inteligentes o botsserían capaces de enlazar en un grafo de conocimiento los datos representados ontológicamente.

Esta primera visión de la web desencadenó un enorme esfuerzo por identificar y establecer estándares ontológicos, que son la condición para poder representar conjuntos de recursos mediante un lenguaje de datos unificado. Los resultados se dejaron esperar, debido, sobre todo, al hecho de que los acuerdos humanos acerca de cómo representar un ámbito de la realidad o ámbito de conocimiento llevan tiempo, especialmente en aquellos campos en los que no preexistía una cultura caracterizada por esa clase de esfuerzos, como sí ocurría en el campo de la salud, las bibliotecas o los archivos, por poner sólo algunos casos. Los primeros resultados prácticos sólo se produjeron a partir de 2007, cuando Berners-Lee puso el acento en el hecho de que la Web Semántica debía concebirse como unaWeb de Datos Enlazados para que cumpliera con el propósito fundacional de contribuir a la evolución acelerada del conocimiento humano. En ese momento se establecieron los estándares ontológicos más básicos (aprovechando el vocabulario DublinCore y generando FOAFSIOC o SKOS) y se empezaron a publicar los primeros datasets o conjuntos de datos estructurados semánticamente. De un modo que conviene explicar, estos conjuntos de datos se pusieron a disposición de terceros o reutilizadores, suponiendo que la producción de datos de esta clase iba a alentar el desarrollo de un ecosistema de reutilizadores que les daría finalmente un valor económico.

 

 

Esto no se produjo, o no se produjo lo suficientemente rápido. Las causas por las que los datos estructurados semánticamente no generaron la clase de movimiento tecnológico y valorización de la información esperada son seguramente varias. Por un lado, la distinción seminal entre producción de datos y la explotación de los mismos por parte de agregadores o robots apelaba a una imagen de la futura Web Semántica que, al igual que sucede en la web Google por así decirlo, distinguía entre productores de datos y aquellos que podrían finalmente darles valor, unificarlos en un grafo de conocimiento o, simplemente, explotarlos; en segundo lugar, se consideraba que la publicación de datos estructurados semánticamente era una forma secundaria y posterior de publicar los recursos o contenidos de la web, de manera que nadie parecía ser consciente, entre los principales productores de datos (desde el British Museum, la Biblioteca del Congreso de EE.UU o la NASA), de la posibilidad de que en el mismo acto pudieran producirse el haz y el envés de la web o, dicho de otro modo, que un gestor de contenidos, una red social o cualquier otro sistema de edición y publicación de recursos o contenidos digitales produjera ambos formatos en el mismo acto. Esto hizo posible que se diera la paradoja de que los productores de datos estructurados no se vieran a sí mismos como reutilizadores de los mismos. Por esta vía se llegó al absurdo de que los principales productores de datos no fueron capaces de usarlos para desarrollar utilidades orientadas a mejorar la experiencia web de los/sus usuarios finales. Así, por poner sólo un par de ejemplos, el British Museum o Nature han publicado excelentes datasets, realizados con una gran calidad ontológica, que prácticamente carecen de reutilizadores y que tampoco han sido utilizados por ellos mismos para la mejora de los procesos de interacción de las personas con los computadores (Human Computer Interaction) y, por ende, para la mejora de la experiencia web de sus usuarios. Por último, en la medida en la que se produjo todo lo anterior, se entendió la web semántica como un asunto que posibilitaría la interoperabilidad entre silos de datos distribuidos, algo que afectaba a la web más profunda, pero no a los usuarios finales, al menos en un primer momento.

Sin embargo, algunas empresas y cabe decir que algunos sectores en particular, entendieron bastante tempranamente que la web semántica, en la medida en la que era una estrategia tecnológica que posibilitaba que las máquinas entendieran el significado que estaba detrás de los contenidos, podría ser una estrategia muy prometedora para una explotación avanzada de la información, y por ende para el desarrollo de nuevos negocios basados en el descubrimiento de conocimiento, siempre y cuando el proyecto expresara un grafo de conocimiento de un modo interrogable por las personas. Esto sucedió en el ámbito de las empresas dedicadas a las biociencias, como las farmacéuticas, o entre los grandes publicadores científicos, como Elsevier o Thompson Reuters, pero también entre los medios de comunicación más avanzados, como puede verse cuando se analiza la estrategia digital de BBC o The New York Times, pero también de, por ejemplo, The Guardian (que tiene casi 45 millones de usuarios únicos al mes, frente a los 14 millones de El Paísdigital). Casi simultáneamente, Google compró Metaweb, la empresa que estaba construyendo Freebase, en realidad un gran grafo de conocimiento que interpretaba el conjunto de la web en forma de entidades y, a través de ellas, vinculaba o enlazaba el conocimiento implícito en la totalidad de la web. Por aquel entonces, julio de 2010, Freebase tenía ya más de 12 millones de entidades; en la actualidad tiene más de 46 millones. Esta adquisición ha permitido a Google crear un gran grafo de conocimiento basado en OWL-RDF y explotarlo como expondremos en apartados siguientes.

1.1LAS NUEVAS POSIBILIDADES DE LA REPRESENTACIÓN SEMÁNTICA DEL CONOCIMIENTO: DE LAS BÚSQUEDAS BASADAS EN LITERALES A LAS BÚSQUEDAS BASADAS EN ENTIDADES

La explotación más relevante que Google está llevando a cabo es el paso de una búsqueda basada en literales o en secuencias de caracteres a una búsqueda basada en entidades y las nuevas posibilidades que esto ofrece. La diferencia entre un literal y una entidad es crucial: en el segundo caso la máquina reconoce un determinado objeto del mundo mientras que en el primero busca secuencias de caracteres y las relaciona mediante "cuerdas" con secuencias homólogas en otros documentos. Cuando una máquina reconoce una entidad entonces entiende, por ejemplo, que "Mario Vargas Llosa" es una persona, que tiene como nombre "Mario" y como apellidos "Vargas Llosa"; que dado que es una persona tendrá una fecha de nacimiento y eventualmente de defunción y, por ende, un lugar de nacimiento y quizá de defunción, una profesión, en este acaso "artista" y, dentro de ese espectro profesional "escritor", etc...Cuando una máquina reconoce una entidad es porque es capaz de reconocer sus atributos, de hecho, una entidad lo es en función de los atributos que la conforman. Imaginemos que una máquina es capaz de identificar sólo las personas contenidas en una colección dada de documentos, entonces sería capaz de enlazarlas a todas en un grafo y nosotros podríamos realizar preguntas o interrogar a ese grafo en función de atributos concretos, como por ejemplo, las personas que nacieron en tal o cual año, o en tal o cual sitio, o bien las que comparten una profesión, por ejemplo la de escritor y, además, han nacido en Sudamérica y han escrito su obra principal en los 60 o principios de los 70. Un conjunto de interrogaciones iterado de ese tipo nos permitiría conocer el conjunto de autores que constituyen el boom sudamericano, por ejemplo, pero lo mismo podríamos preguntar por los pintores nacidos en Ciudad Real, por poner otro caso. Otra explotación muy sencilla, es mostrar, para una búsqueda dada, los detalles ontológicos (el conjunto de atributos) de la entidad principal por la que se pregunta. Es lo que hace Google cuando muestra la ficha de Velázquez, el pintor barroco español. Cuando introducimos en la caja de búsqueda el literal "Velázquez", Google infiere que preguntamos por Velázquez, el pintor, y nos muestra su fecha de nacimiento y defunción, el lugar de esos eventos y los principales cuadros de los que fue autor, también otros pintores relacionados con Velázquez, por lo general de su misma época y/o escuela. Si hacemos clic en alguno de esos cuadros, nos ofrece una nueva búsqueda con muchos más cuadros de Velázquez y si clicamos alguno de ellos podemos llegar a una ficha de Wikipedia. Desde luego, el recorrido que realizamos a partir de una petición tiene sentido porque el conjunto de entidades que manejamos, "pintores" y "obras de arte" están relacionadas, lo mismo hubiera ocurrido si se hubiera tratado de "celebrities" y "programas de televisión", o de "futbolistas" y "equipos en los que han jugado".

En los enlaces que pueden visitarse al final de este punto, se puede conocer lo que explícitamente ha publicado Google sobre el tema, incluyendo el hecho de que utilizan las descripciones ontológicas en OWL-RDF de terceros, siempre y cuando sean referentes en su campo de conocimiento. Lo que ha quedado claro en esta fase de la implantación de la Web Semántica es que cuando ésta es entendida como Grafo de Conocimiento (y no sólo como un dataset o como un conjunto de ficheros expresivos y enlazables) entonces hay muchos negocios posibles, siempre y cuando se piense en la clase de utilidades que hacen más sencillas y útiles las webs al conjunto de audiencias que en su conjunto denominamos “usuario final”. Y ello porque en cualquier colección de recursos suficientemente amplia, existe un conjunto de relaciones implícitas valiosas para diversos grupos de interés, algunos probablemente muy minoritarios, que hacen posible una explotación avanzada de los mismos, pero también porque todo grafo de conocimiento representado sobre estándares es extensible y se puede enlazar con datos provenientes de terceros, como ha demostrado Google con su acoplamiento simbiótico con Wikipedia o, más modestamente, Didactalia con su grafo dinámico de conocimiento basado igualmente en Wikipedia, vía DBPedia. A Google, ese acoplamiento le ha servido para multiplicar el tiempo que las personas permanecen en el buscador y para ampliar su utilidad a costa de los productores primarios de contenidos, lo que sin duda es un buen negocio. A continuación, los artículos de Google prometidos, en donde ellos mismos dan cuenta de su proyecto de Grafo de Conocimiento. La conclusión a la que un lector atento podría llegar es que si alguien dispone de una base de recursos de suficiente calidad, lo más interesante es enlazarlos en un grafo de conocimiento entre sí y con terceros que puedan enriquecerlo y extenderlo, porque en ello es seguro que hay nuevos negocios.

1.2MODELOS DE INTERACCIÓN DE LAS PERSONAS CON LOS ORDENADORES: UTILIDADES Y NEGOCIOS ASOCIADOS CON LA CONTRUCCIÓN DE UN GRAFO DE CONOCIMIENTO

El área de conocimiento Human-Computer Interaction (HCI) investiga el diseño y uso de la tecnología informática, con especial atención a las interfaces que intermedian entre las personas o usuarios y las computadoras. Los investigadores en el campo de la HCI observan los modos en que los seres humanos interactúan con las computadoras y tratan de desarrollar nuevos diseños y eventualmente nuevas tecnologías que posibiliten a las personas interactuar con las computadoras en formas novedosas. Human-Computer Interaction, como campo de investigación, está situado en la intersección de la informática, las ciencias de la conducta y, en especial la psicología, el diseño, el estudio de los media y otros variados campos de estudio. El término fue popularizado por Stuart K. y Allen Newell de la Universidad Carnegie Mellon y Thomas P. Moran de IBM Research en su artículo de 1983, La Psicología de la Interacción Persona-Ordenador, que constituye la obra seminal sobre el tema. A diferencia de otras herramientas con usos limitados (como un martillo o el destornillador o cualquier otra herramienta de mano, pero también como ocurre con cualquier máquina-herramienta), un ordenador tiene muchos usos posibles, lo que implica que las conversaciones o diálogos posibles entre las personas y las máquinas son múltiples y evolutivas. Hemos tratado con anterioridad de un aspecto de esta interacción, en concreto de lo relacionado con los modelos de búsqueda y recuperación de la información (véase: Human-Computer Information Retrieval: Buscadores Facetados, la siguiente generación de buscadores basados en razonamiento).

El primer negocio tiene que ver con el modo en el que recuperamos la información e interrogamos a los contenidos. Durante los últimos años, la confluencia de estudios en las áreas de IR (Information Retrieval) y HCI (Human Computer Interaction) ha generado un área de estudio específica, HCIR(Human–Computer Information Retrieval), que se ocupa de las técnicas de recuperación de información que introducen la inteligencia humana en el proceso de búsqueda. Algunas de las ideas generadas, que ya se están aplicando en los buscadores más avanzados, son:

  • Dar la responsabilidad y el control de la búsqueda a la persona. Le requiere esfuerzo, pero se le recompensa.
  • No adivinar las intenciones, sino mejorar la comunicación.
  • Soportar refinamiento y exploración.
  • Responder con un conjunto de resultados ordenado y adecuado, lo que incluye ofrecer diferentes formas de presentación según el tipo de resultados: listas, mosaicos, mapas, timeline, etc.
  • Extender los resultados y la información con contextos, que son, a su vez, resultados de otras búsquedas o de las búsquedas que de modo automático puede realizar una máquina a partir de un conjunto de interrogaciones desarrolladas por una persona (Computer-Computer Informational Retrieval)

Una de las propuestas concretas es el uso, como interfaz, de buscadores facetados. Han sido pioneros, en el uso de este tipo de interfaz, sitios web como Amazon o Ebay.

Los buscadores facetados se caracterizan por:

  • Ofrecer una sumarización basada en propiedades que caracterizan específicamente a los resultados mostrados. Por ejemplo, si se trata de mostrar obras de arte, podrían ser autor, museo, época, estilo, escuela, técnica, etc.
  • Cada posible valor de la propiedad es una opción de refinamiento de la búsqueda. Por ejemplo, una vez buscadas obras de arte sobre caballos, se dispone de una lista con estilos. Eligiendo uno de ellos,Barroco, se obtendrían 14 cuadros. De ellos, observamos que uno de los autores es Velázquez, con lo que llegamos a 3 cuadros: precisión y pertinencia
  • Las opciones de refinamiento ofrecen resultados posibles. En el ejemplo anterior, no es posible elegir como autor a Goya, ya que ninguna de sus obras correspondería al estilo barroco. Es un defecto frecuente de algunos sistemas de búsqueda la posibilidad de combinar opciones de búsqueda que no devuelven resultados.

Las tecnologías de la web semántica posibilitan extender esta clase de buscadores a repositorios de contenidos menos estructurados que los elementos de un catálogo, como es el caso de los grandes buscadores mencionados, por ejemplo, de una gran base de noticias o de videos anotados. El resultado natural de implantar un modelo de búsqueda basada en un facetado con sumarización es una mayor precisión en los resultados, un mayor tiempo de permanencia, así como la posibilidad de facilitar a los usuarios tanto especializados como ordinarios un espacio dedescubrimiento de conocimiento. Las máquinas pueden computar el conjunto de relaciones entre todas las entidades y atributos contenidos en un grafo, lo que no resulta posible para una persona, por muy experta que sea en la materia.

El segundo negocio tiene que ver con la posibilidad de generar nuevos relatos en un dominio específico (periodístico, educativo, cultural, turístico) utilizando la capacidad de las máquinas para realizar inferencias automáticas sobre el conjunto de relaciones explícitas entre el conjunto de entidades que conforman el grafo y de presentarlo de un modo útil y atractivo para los usuarios. Los relatos basados en sistemas de inferencia automáticos posibilitan desarrollar un discurso a partir del interés manifestado por una persona por un conjunto de entidades, mostrando entidades relacionadas de diverso modo con la requerida y extendiendo, por tanto, con posibilidades nuevas de descubrimiento de conocimiento y navegación, las posibilidades de diálogo y conversación entre las personas y los contenidos representados en el grafo de conocimiento. Imaginemos una noticia que trata de Manuel Fraga, la máquina puede inferir de las relaciones implícitas en el grafo su relación con otros políticos del PP, o con personas de AP, o con aquellas personas que fueron redactores de la constitución,  y abrir a partir de cada uno de esos atributos de Fraga hilos de inferencia y, por ende, de exploración y descubrimiento de conocimiento. Un relato de esta naturaleza propone un viaje y alienta la curiosidad y el instinto por saber más y aprender de las personas. En definitiva, visto desde este modo de generación de relatos automáticos, un grafo multiplica las posibilidades de permanencia y de páginas vistas.

En tercer lugar, la publicación dinámica semántica (Semantic Dynamic Publishing) de un grafo de conocimiento contiene todas las páginas webs posibles que se pueden realizar con ese contenido y, lo que es aún mejor, estas se pueden pintar automáticamente si existe un sistema de interrogación adecuado. Así por ejemplo, el grafo de conocimiento del Museo del Prado, incluye las páginas web del bodegón español del siglo XVIII, el de los desnudos femeninos del siglo XVII en la Escuela Italiana o el de los retratos reales en el siglo XVI. Todas estas búsquedas pueden ser en el caso del Prado el correlato de una posible exposición dedicada.

Supongamos lo mismo con una base de noticias. La BBC utilizó la publicación semántica dinámica en el Mundial de Fútbol de Sudáfrica de 2010. Construyó un gran grafo de conocimiento que contenía a los jugadores, los entrenadores y otros profesionales relacionados con los equipos, las selecciones, los países a los que pertenecían esas selecciones, las sedes...Todo ello le permitió mantener más de 700 páginas web (una por jugador, por equipo, por sede...) sin un gran equipo de editores. La publicación dinámica semántica posibilita generar páginas web ad hocde un suceso específico, de una persona o conjunto de ellas, de un evento, a muy bajo coste. A su vez, la publicación de información especializada just in time sobre asuntos de actualidad genera tráfico, visitas y eventualmente registro y suscripciones.

Dado que un grafo de conocimiento puede mostrar su información de múltiples maneras, listas, mosaicos, mapas,timeline, etc... y que también puede realizar inferencias que posibilitan a los usuarios descubrir conocimiento,algunas o muchas de estas utilidades pueden ser ellas mismas sólo accesibles para usuarios registrados o para suscriptores. La mayor parte de la gente aceptará registrarse y suscribirse si con ello accede a una experiencia de conversación con los contenidos de la web realmente superior, de manera que las ventajas que la tecnología ofrece para el diálogo entre las personas y las máquinas pueden convertirse en registro y eventualmente en suscriptores.

Un grafo de conocimiento, en la medida en la que anota o identifica las entidades de los contenidos, permitevalorizar esos mismos contenidos para fines distintos de aquellos para los que originalmente fueron concebidos. Así, por ejemplo, buena parte del trabajo que se realiza en un periódico o una televisión puede tener un valor educativo, turístico o cultural también. Esos contenidos podrían eventualmente tomar parte o enlazarse a través de sus entidades con grafos cuyos contenidos primarios fueron pensados para otros sectores. También pueden desarrollar un nuevo valor intrínsecamente informativo, al facilitar la construcción de presentaciones nuevas de los mismos, por ejemplo a través de portales verticales. De hecho, la facilidad para construir y mantener portales verticales puede ser una de las mayores formas de valorizar una gran base de contenidos a través de un grafo de conocimiento.

Finalmente y dado que un grafo de conocimiento dota de un corazón semántico a una gran base de conocimiento, resulta posible desarrollar un potente negocio basado en ofrecer a cada usuario de manera proactiva información ad hoc y contextual asociada con sus intereses, en especial a aquellos que están registrados o son suscriptores y cuyos datos, de hecho, pueden ser incorporados como parte del propio grafo de conocimiento. La capacidad para personalizar la información y por ende la publicidad constituye una de las principales posibilidades de un grafo de conocimiento que represente también de manera semántica a los usuarios y sus interacciones.

Por último, la representación semántica del contenido tiene un evidente impacto en el posicionamiento y, en consecuencia, en el tráfico. Dado que, de todos los debates sobre las posibilidades de la web semántica, este es el más conocido y comentado, y dado también que la pelea por las audiencias y por el tráfico es una de las más importantes y extendidas de la web, y considerando por último que la ordenación de los resultados de búsqueda está, hoy en día, en una situación monopolística, creemos que es necesario dedicar a este punto un capítulo específico.

1.3SEMANTIC SEO O EL DEBATE SOBRE CÓMO DESARROLLAR UNA ESTRATEGIA SEO GANADORA

La batalla por posicionar los contenidos ha resultado ser, en la práctica, la de entender lo más precisa y rápidamente posible las preferencias de los grandes agregadores a la hora de presentar el contenido como resultado de una determinada búsqueda. El problema en este momento de la instalación de la sociedad del conocimiento, caracterizado por una gran abundancia de información y una creciente escasez de atención, es que esta lucha ha terminado por ocupar el centro del conjunto de estrategias que caracterizan el combate por la prevalencia en la web. Es natural que así sea, pero aquí, como en todo, la posesión de tecnología diferencial puede determinar el resultado final de la riña.

La construcción de la web semántica como grafo de conocimiento ha debido entrar en conversaciones laterales, y también muy generales, que poco tenían que ver con su visión original, pero que han resultado ineludibles desde que los principales buscadores se asociaran a partir de 2010 en schema.org con el fin de desarrollar un modelo de metadatos semánticos que pudiera resultar accesible para las agencias de comunicación y publicadores web no especializados. Resulta inevitable apuntar aquí que el proyecto de los grandes jugadores en el ámbito de la búsqueda y especialmente de Google era anotar la web y que el premio para los colaboradores era mejorar, bajo ciertas restricciones o condiciones, su posicionamiento. Así es como empezó la historia de los metadatos y los microformatos y como se relacionó un gran proyecto de anotación semántica vinculado con la construcción de un grafo de conocimiento con el posicionamiento web y con la estrategia SEO. Es evidente que Google aprecia la semántica, pero especialmente aprecia los ficheros RDF.

Con relación al tema de los microdatos y los microformatos creo que el tema de fondo, aunque no sólo, debería ser el hecho de que alguien, una empresa, un publicador, un medio de comunicación... que posea gran contenidos propio, original y de calidad decida construir un grafo de conocimiento que enlace todas las miles de entidades de sus diversas colecciones de recursos entre sí, que, además, acumule varios cientos de miles de atributos a través de los cuáles se pueda viajar o navegar o formular preguntas (queries) iteradas que posibiliten recuperar la información de un modo no previsto por el administrador y no dependiente de un algoritmo que funcione con un conjunto de reglas fijas y administradas a priori. Ese grafo debería responder a un modelo ontológico normalizado que eventualmente permitiría incorporar al mismo información descrita también ontológicamente por terceros y, por tanto, enlazarlo con el de otras organizaciones que utilicen un modelo semejante o simplemente con entidades homólogas de grafos heterogéneos. Si alguien hace esto, desde luego que puede atender y soportar en su estrategia SEO cualquier modo de anotación semántica solicitado por los principales jugadores en el campo de la búsqueda.

El lenguaje técnico que utilizamos para describir ese grafo interpretable o decodificable por las máquinas es OWL-RDF; y el modo "natural" en el que incrustamos algunos atributos del RDF en el HTML se denomina RDFa, que es lo que permite que los robots de búsqueda consuman información semántica del RDF desde el HTML. Ello tiene efectos en el posicionamiento, como ya hemos dicho. Pero lo importante es el RDF que, sin descuidar lo que pueda tener de interés en SEO a través de su publicación resumida en forma de RDFa, es el que posibilita estrategias HCI (Human Computer Interaction) orientadas a explotar el grafo de conocimiento subyacente de manera relevante para las personas y, por ende, abre el camino a nuevos modelos de negocio basados en el descubrimiento de conocimiento y en la presentación de conocimiento relevante just in time.

Dicho esto el problema suele consistir en discutir, no acerca del grafo de conocimiento y de una verdadera estrategia semántica, sino sobre la bondad de los microdatos frente al RDFa y, en última instancia, frente al RDF en el marco de una conversación que considera que toda estrategia semántica tiene sentido en el marco de una batalla por el SEO, lo que resulta ser, como hemos tratado de mostrar, un punto de vista que no toma en cuanta algunas de las posibilidades más relevantes de la web semántica.

En todo caso, creemos que no existe (ni existió) tal batalla entre formatos, ni una situación de "microdatos vs RDFa", al menos para los grandes consumidores de dichos datos: los robots de búsqueda. La situación actual es que Google, y el resto de sistemas de búsqueda, quieren los datos que están implícitos en las páginas HTML, y parece no importarles mucho el formato usado, siempre que éste sea estándar. En este sentido, cabe indicar que schema.org es un "estándar de facto", creado y promovido por 4 empresas (dependiente por tanto de Bing, Google, Yahoo y Yandex), y no de una entidad certificadora independiente, como W3C, IEEE o ECMA; mientras que RDFa RDF son estándares de World Wide Web Consortium (W3C).

Hay que señalar que los Microdatos existentes se refieren a un conjunto ontológico generalista y bastante reducido. Además, el método de extensión de vocabularios y tipos de entidades definido en schema.org, que se acaba de modificar este mes de mayo, parece poco robusto, si de lo que ese trata es de soportar proyectos altamente expresivos.

Como hemos indicado en este texto, en el core de nuestra arquitectura está la publicación de datos síncrona con la publicación del contenido como tal (HTML). Comenzamos a analizar en profundidad este asunto en el año 2011, definiendo nuestra solución actual (HTML + RDFa + RDF), y publicando algunos posts que os invitamos a consultar:

A finales del año pasado, publicamos un nuevo post con nuestra visión sobre el estado actual de esta cuestión: El posicionamiento web y la Web Semántica. Semantic SEO

Dicha visión sobre SEO (que no es más que una de las explotaciones posibles de un grafo de conocimiento) se puede resumir en:

  • Hay que ofrecer datos incrustados a los buscadores.
  • El formato puede ser microdatos o RDFa. Nuestra solución estándar (por la que hemos optado en GNOSS) ofrece RDFa, pero podríamos ofrecer Microdatos (recordando que hay que elegir uno de los 2) si fuera necesario.
  • Además de los datos incrustados en HTML, en GNOSS ofrecemos una vista RDF que sólo contiene los datos, pudiendo incluir propiedades adicionales a las incluidas en HTML+RDFa.

Llegados a este punto, ¿por qué RDFa en lugar de Microdatos para una web basada en estándares de Web Semántica? Creemos que este pregunta tiene sentido en el caso de que se utilicen modelos de referencia (y no tanto en proyectos más informales de anotación semántica donde la relación entre el RDF y el RDFa puede ser mucho más casual)

Un caso que puede entenderse con claridad es aquel que utiliza algún modelo de referencia, como es el caso de los museos que utilizan el vocabulario CIDOC-CRM. Los microdatos de schema.org ofrecen un vocabulario con diversos tipos de entidades, entre los que se encuentra CreativeWork, que podríamos aplicar en este caso, y que tiene subtipos más específicos como Painting o Sculpture. Sin embargo, estos subtipos no tienen propiedades específicas.

Si revisamos las propiedades de CreativeWork nos encontramos con que podríamos usar las siguientes:

  • description. A short description of the item.
  • image. An image of the item. This can be a URL or a fully described ImageObject.
  • name. The name of the item.
  • alternativeHeadline. A secondary title of the CreativeWork.
  • author. The author of this content.
  • citation. A citation or reference to another creative work, such as another publication, web page, scholarly article, etc.
  • contentLocation. The location depicted or described in the content. For example, the location in a photograph or painting.
  • dateCreated. The date on which the CreativeWork was created.
  • keywords. Keywords or tags used to describe this content. Multiple entries in a keywords list are typically delimited by commas.
  • mentions. Indicates that the CreativeWork contains a reference to, but is not necessarily about a concept.
  • character. Fictional person connected with a creative work.

Por nuestra parte, el HTML que estamos generando para nuestros proyectos de museos contiene las siguientes propiedades RDFa, provenientes de las ontologías y vocabularios CIDOC y FRBR (simplificamos la escritura del nombre de las propiedades para que sean legibles por humanos):

Propiedades similares a Microdatos:

  • has_note. Descripción de la obra.
  • shows_visual_item. Imágenes de la obra.
  • has_title. Título de la obra
  • author.
  • is_documented_in. Trabajos documentales sobre la obra (con su título, autor, fecha, editorial y páginas)
  • has_current_location. Situación de la obra en el museo. Por ejemplo, "Sala 014".
  • has_current_location_type. Por ejemplo, "Expuesto".
  • textDate. Fecha de la obra, en texto. Por ejemplo, "Hacia 1632".
  • tagLabel. Cada una de las etiquetas de la obra.
  • represents_object. Objetos representados en la obra. Por ejemplo, "laúd" o "violín".

Propiedades no disponibles en Microdatos:

  • movedFrom. De dónde llegó la obra, por ejemplo, "Colección Real (Convento..." 
  • identifier. Por ejemplo, "P01167".
  • used_general_technique. Técnica de la obra, por ejemplo "Óleo".
  • employed_support. Soporte de la obra, por ejemplo "Lienzo".
  • dimension. Medidas de la obra.

Esto es un ejemplo que muestra la mayor expresividad del RDFa y, sobre todo, la del RDF que le sirve de soporte y fuente.

Finalmente, conviene indicar que la representación RDF de cada obra contiene, además de los expresados en RDFa, los demás datos de la obra. Se trata de la información que está disponible como facetas de búsqueda, pero que tal vez no se incluya en la ficha de la obra (ni en el HTML ni, por tanto, en el RDFa), como la "Escuela" o las demás propiedades relacionadas con Iconografía (Tema, Fauna, Flora y Personajes u otras posibles). Ello dota al grafo de una enorme plasticidad y expresividad y, por ende, de unas grandes posibilidades de extenderlo mediante el recurso de enlazarlo con grafos homólogos o incluso, con entidades concretas de grafos heterogéneos (como estamos haciendo ahora con Didactalia). También de desarrollar nuevos servicios y funciones sobre esa clase de atributos que sólo están en el RDF y no en el RDFa. Ello podría dar lugar, siempre y cuando existieran actores decididos a ello, a realizar la World Wide Web de un modo un tanto diferente a cómo actualmente la conocemos, esto es, no como un gigantesco listado o unas páginas amarillas, sino organizada en un conjunto de espacios temáticos que acumulen información vinculada con un determinado ámbito de conocimiento o realidad de un modo significativo y útil para distintas audiencias. Así en el futuro podría existir una web de datos enlazados, o basada en un grafo de conocimiento, educativa o cultural o de biología molecular, o de viajes de aventura o de…, en el que el conocimiento relevante se muestre y sea interrogable sobre la base de entidades y atributos enlazados. Esto finalmente podría dar como resultado una geometría de la web diferente a la que conocemos, basada en un conjunto de web de datos que expresan y explotan un conjunto de grafos especializados de conocimiento. En todo caso, en la web actual o en cualquier modo en el que la web se desarrolle, la batalla por el SEO será, como hemos dicho al principio de este apartado, una batalla ineludible por prevalecer en un mundo donde la información es un bien que tiende a la hiperabundancia y la atención, por el contrario, un bien cada día más escaso.

 

Ricardo Alonso Maturana. CEO GNOSS.

Logroño, junio 2015.

 

...