Panel Información

Utilizamos cookies propias y de terceros para mejorar tu experiencia de navegación. Al continuar con la navegación entendemos que aceptas nuestra política de cookies.

GNOSS Products: oferta de servicios y productos GNOSS > web+semántica

facetas

31 resultados

Hablar hoy día 5 de mayo de 2015 de transformación digital de las organizaciones parece especialmente adecuado dadas las noticias que colman los periódicos del día y que nos hablan del nombramiento de Carlos Torres Vila como Consejero Delegado del BBVA, en sustitución de Angel Cano. Según se puede leer, junto con Torres Vila se han realizado nada menos que 13 nombramientos y se ha producido la salida de 6 antiguos directivos, lo que promete un cambio de calado, con el fondo de la transformación digital del banco como mayor prioridad. En la noticia publicada por El País se dice que " González (Lugo, 1944) ha transmitido a los ejecutivos que quiere que la entidad abandone la zona de confort actual para conseguir que el BBVA deje de ser un banco para convertirse en un elemento tecnológico de la industria bancaria". Todo apunta a que se trata de una apuesta de largo alcance llamada a remover el espacio de negocio y competencia del sector financiero y a la que deberán responder el resto de los jugadores más pronto o más tarde.

Según creo, la transformación digital de una empresa o de un negocio tiene mucho que ver con el hecho de que estamos desarrollando, por primera vez de manera consistente y masiva, un conjunto de tecnologías que posibilitan que las máquinas y los sistemas interpreten de manera razonablemente correcta los recursos generados por las personas, tanto aquellos que se crean con un carácter intencional (los documentos), como aquellos otros que se registran de manera automática y que constituyen nuestra huella digital. En la práctica y en la medida en la que estamos también en un proceso de webificación de nuestros sistemas de información, lo que estamos haciendo es suplementar el casi colmatado internet de documentos (HTML), dotándole de una capa de representación del contenido interpretable por las máquinas. A este nuevo internet lo denominamos Web de los Datos e incluye los datos producidos por las personas y aquellos registrados por diversos sensores y que representan el modo en el que funcionan las cosas (generalmente en su relación con las personas) .

Este nuevo internet está desplegándose en todos los sectores de actividad, cuyos negocios se están viendo transformados profudamente, y se verán aún más en el futuro, por este enfoque; así podemos hablar de una educación basada en datos, de una cultura basada en datos, de un turismo basado en datos, de una industria o un determinado proceso industrial basado en datos o de banca basada en datos. Todos estas denominaciones apuntan al hecho de que las máquinas, nuestro sistemas, pueden construir un grafo de conocimiento subyacente a cada espacio o ámbito de actividad humana y que en la explotación de ese grafo hay nuevas posibilidades económicas y de negocio. 

La Web de los Datos se está construyendo sobre un conjunto de tecnologías y lenguajes técnicos que en su conjunto conocemos como Web Semántica. El modo en el que se expresa la Web Semántica como Web de Datos se conoce como Web de Datos Enlazables (o Enlazados) o Linked Data Web en inglés. Lo que sugiere esta denominación es que nuestros sistemas pueden enlazar datos con datos, información con información de manera automática o cuasi-automática. El resultado es un grafo de conocimiento, en el cual los datos se acoplan, conectan o vinculan de manera automática sí (esto es sin el concurso de un editor o de un lector), pero sobre todo significativa para las personas que de ese modo ven multiplicada por un factor enorme sus capacidades de lectura, interpretación y descubrimiento del conocimiento. En suma, los grafos de conocimiento y los modelos de interrogación que podemos desarrollar sobre ellos, son la condición tecnológica para que las personas, los grupos y las organizaciones puedan desarrollar procesos eficientes de gestión de conocimiento (que incluye modelos de interrogación, de enriquecimiento de la información, de inferencia y razonamiento y, por ende, de descubrimiento de conocimiento) en un mundo (digital) donde la información es hiperabundante y las capacidades humanas de interpretación crecientemente limitadas.

El abordaje técnico que posibilita esta transformación de documentos (legibles para las personas)  en datos (legible por una máquina) se realiza por medio de ontologías o vocabularios, que recogen y describen en un lenguaje de programación (OWL u Ontology Web Languaje) un conjunto de entidades (junto con sus atributos) que representan un ámbito de la realidad y, por ende, un ámbito de conocimiento. No se trata, cono se ve, de una estrategia basada en el procesamiento del lenguaje natural (aunque recurra a algoritmos de aprendizaje y estadística basada en Bayes para algunos de sus procesos, como es el de la anotación semántica o de reconocimiento de las entidades que contiene un determinado texto), porque las máquinas sólo interpretan correctamente aquello que puede ser anotado o identificado por la ontología (las entidades y sus atributos), pero cuando lo hacen, lo hacen de manera indubitable. Eso permite computar, a partir de la representación de un número dado de recursos digitales relativos a un ámbito de conocimiento o realidad dado, el conjunto de relaciones implícitas entre ellos, lo que en la práctica supone activar procesos de conocimiento que en sí mismos ya son de un gran valor económico.

Imaginemos el caso de que una empresa tuviera representadas las personas de su negocio (clientes, empleados) mediante FOAF (Friend of a Friend), una ontología que posibilita que los sistemas distingan el nombre, los apellidos y eventualmente otros atributos personales de cualquier otra posible secuencia de caracteres que contenga un texto; eso significa que la secuencia de caracteres J-o-s-e-f-i-n-a- -M-o-l-i-n-a se convierte para las máquinas que computan información en una persona con un nombre propio (Josefina) y un apellido (Molina); si además disponemos de algunos eventos representados del mismo modo, esto es de acuerdo con estándares de la Web Semántica, tales como, por ejemplo, el evento [comprar con tarjeta de crédito] (dentro del cual podríamos distinguir a su vez la cantidad, el lugar y el tipo de comercio donde se realiza la compra) estaríamos en condiciones de poder empezar a desarrollar modelos de interrogación sobre esas colecciones de datos que nos pueden llegar a proporcionar un conocimiento de calidad acerca de los patrones de comportamiento y los estilos de vida de las personas y que, en consecuencia, nos permitirían segmentarlas en audiencias y eventualmente desarrollar una cartera de productos y servicios adecuados a esos segmentos y, en el límite, personalizados o individualizados.

Por supuesto, podríamos enlazar nuestros datos de Josefina Molina con datos de terceros, que podrían ser también de consumo (como por ejemplo los desplazamientos en avión, su frecuencia y destino, su consumo de teléfono, la naturaleza  y patrón de las llamadas, etc...) o de otro tipo (los artículos científicos, supongamos, que ha escrito Josefina Molina y que están recogidos en Elsevier o en Web of Knowledge). Eventualmente una web de datos podría identificar todo lo relacionado con Josefina Molina de manera indubitable. Un caso sencillo de descubrimiento de conocimiento, que por cierto es ya real o está muy cerca de serlo podría ser éste: Elsevier dispone en su vasta base de conocimiento de artículos científicos que contiene uno que describe el caso de un médico de urgencias de un hospital de provincias polaco que ha utilizado un determinado principio activo para paliar los síntomas más insidiosos de tal o cual enfermedad; Pfizer, por su parte, ha representado semánticamente el conjunto de su actividad investigadora y, por ende, sus ensayos clínicos y conoce por tanto qué principios activos experimentó y para qué, así como qué experimentos tuvieron éxito y cuáles no; en concreto el del principio activo al que nos estamos refiriendo no lo tuvo. Sin embargo, al enlazar los datos de su base de conocimiento con la de Elsevier puede descubrir, a partir de una experiencia empírica marginal realizada en un lugar periférico de la investigación clínica sobre un principio activo concreto que probablemente nadie ha citado y muy pocos han leido, una aplicación eventualmente muy prometedora para un principio activo cuya vida comercial estaba en vía muerta. Por cierto, la industria farmacéutica está haciendo un gran esfuerzo en este campo y también las grandes editoriales científicas. Elsevier, que es junto con World of Knowledge el principal contenedor de la producción científica mundial, tiene representada semánticamente toda su base de conocimiento; por su parte el conjunto de la industria farmaceútica utiliza Uniprot una base de conocimiento sobre proteínas y enzimas que contiene más de 20.000M de triples (el modo en el que se representa la información en Web Semángica) y los diferentes grandes actores del sector están trabajando activamente en su propias bases de conocimiento. Pero lo que merece la pena subrayar aquí se parece mucho a lo que expresaba Richard Feynman en 1959, el año que ganó el Premio Nobel durante la reunión anual de la Sociedad Física Americana celebrada en el Instituto de Tecnología de California (CALTECH), en una célebre conferencia cuyo título podríamos traducir como "Hay mucho espacio por debajo" (There´s Plenty of Room at the Bottom): "Yo imagino que los físicos experimentales deben mirar a menudo con envidia a hombres como Kamerlingh Onnes, quien descubrió un campo como la baja temperatura, la cual parece ser insondable y en el cual uno puede ir abajo y abajo. Un hombre tal es entonces un lider y tiene algún monopolio temporal en una aventura científica. Percy Bridgman, al diseñar una manera de obtener presiones mayores, abrió otro campo nuevo y fue capaz de moverse en él y guiarnos alrededor. El desarrollo de un vacío aún mayor fue un contínuo desarrollo de la misma especie..." (Traducción: Pablo Martín Agüero). Hay mucho espacio por debajo cuando comenzamos el desarrollo de una Web de Datos sea en el ámbito que sea, en un proceso industrial, un departamento de Marketing, una Universidad, un Museo...y muchas oportunidades de ganar nuevo espacio para los negocios, la gestión cultural o el impulso a la educación. De pronto mucho conocimiento marginal y aparentemente poco útil adquiere un nuevo vigor en el marco de un nuevo proceso de generación y descubrimiento de conocimiento.

Dato, cuando se define desde este punto de vista técnico, debe entenderse en este contexto que hemos expuesto como la porción mínima de información interpretable correctamente por una máquina. Nuestro punto de vista sugiere que si los datos no están domesticados o interpretados mediante ontologías y vocabularios entonces resultarán poco útiles o difícilmente manejables, especialmente cuando se trate de datos muy masivos (Big Data). El disponer de datos representados del modo que hemos descrito, esto es, de "datos enriquecidos", permite desarrollar sistemas de interrogación basados en razonamiento natural especialmente útiles para las que personas conectan el conocimiento de tal manera que, como consecuencia, pueden explicitarse relaciones hasta ahora ignoradas u ocultas entre los datos que lo conforman. Este nuevo ámbito de conocimiento y aplicación que se ocupa de los modelos humanos de interrogación sobre grandes cantidades de información organizadas en un grafo se denomina Human Computer Interaction (HCI) y es una de las disciplinas emergente más interesantes en el ámbito de las IT, pues determina el modo en el que las personas terminarán por dar valor, utilizar e interrogar a los datos y, por ende, determina el conjunto de aplicaciones para usuario final que pueden desarrollarse sobre la base de la Web de los Datos. Por que, conviene subrayarlo, la Web de los Datos no es una Web para las Máquinas, sino la web que las máquinas devuelven a las personas cuando aquellas pueden razonablemente comprender los contenidos que producimos. Los modelos HCI que explotan las posibilidades de la representación semántica precisan, a su vez, de modelos de computación que posibiliten la realización de inferencias o de procesos iterados de interrogación sobre los datos. Y, finalmente, se precisa de una arquitectura de software que facilite una ejecución rápida o industrial de los proyectos. Nada más.

...

LAS WEB SEMÁNTICAS DE LA WEB: EL NEGOCIO DE CONSTRUIR Y EXPLOTAR GRANDES GRAFOS DE CONOCIMIENTO ESPECIALIZADOS

Desde que en 2001 Tim Berners-Lee escribiera Semantic Web en Scientific American, "Web semántica" hace referencia a un lenguaje técnico de marcado, así como, posteriormente, a un conjunto de estándares de interrogación de bases de datos (como SPARQL) que tienen como finalidad posibilitar la publicación de los recursos digitales que generan las personas de tal modo que resulte interpretable o inteligible por las máquinas o sistemas. Se trata, por tanto, de un lenguaje para máquinas. En este sentido, la web semántica no es lo opuesto a la web no semántica o que precisa un emisor y un receptor humanos o, si se prefiere, la web HTML (HyperText Markup Language); si consideramos a esta última como el haz de la web, aquella sería su envés. De este modo, todo recurso digital podría tener dos caras, la que puede leer o interpretar una persona, esto es la que aparece cuando solicitamos una página web y que se muestra o publica en HTML y aquella otra que pueden interpretar las máquinas y que se publica utilizando OWL-RDF(Ontology Web Languaje-Resource Description Framework).

Ya en el artículo seminal al que me refiero se apuntaban algunos de los atributos esenciales de esta nueva forma de publicar en la World Wide Web, como son el de expresar el significado de los recursos mediante ontologías, representar el conocimiento entendiendo éste como la agregación o el enlazado (linked) de recursos distribuidos o no centralizados, facilitar la recuperación de la información posibilitando modos de interrogación más próximos al modo intencional e iterado en el que funciona la mente humana y, finalmente, acelerar la evolución del conocimiento humano al facilitar la transición o transformación de la nuevas ideas seminales frecuentemente producidas por un individuo o grupo pequeño, que viven en el marco de una subcultura original, en ideas comunes o establecidas con gran amplitud cultural. En la visión original de la web semántica, los agentes inteligentes o botsserían capaces de enlazar en un grafo de conocimiento los datos representados ontológicamente.

Esta primera visión de la web desencadenó un enorme esfuerzo por identificar y establecer estándares ontológicos, que son la condición para poder representar conjuntos de recursos mediante un lenguaje de datos unificado. Los resultados se dejaron esperar, debido, sobre todo, al hecho de que los acuerdos humanos acerca de cómo representar un ámbito de la realidad o ámbito de conocimiento llevan tiempo, especialmente en aquellos campos en los que no preexistía una cultura caracterizada por esa clase de esfuerzos, como sí ocurría en el campo de la salud, las bibliotecas o los archivos, por poner sólo algunos casos. Los primeros resultados prácticos sólo se produjeron a partir de 2007, cuando Berners-Lee puso el acento en el hecho de que la Web Semántica debía concebirse como unaWeb de Datos Enlazados para que cumpliera con el propósito fundacional de contribuir a la evolución acelerada del conocimiento humano. En ese momento se establecieron los estándares ontológicos más básicos (aprovechando el vocabulario DublinCore y generando FOAFSIOC o SKOS) y se empezaron a publicar los primeros datasets o conjuntos de datos estructurados semánticamente. De un modo que conviene explicar, estos conjuntos de datos se pusieron a disposición de terceros o reutilizadores, suponiendo que la producción de datos de esta clase iba a alentar el desarrollo de un ecosistema de reutilizadores que les daría finalmente un valor económico.

 

 

Esto no se produjo, o no se produjo lo suficientemente rápido. Las causas por las que los datos estructurados semánticamente no generaron la clase de movimiento tecnológico y valorización de la información esperada son seguramente varias. Por un lado, la distinción seminal entre producción de datos y la explotación de los mismos por parte de agregadores o robots apelaba a una imagen de la futura Web Semántica que, al igual que sucede en la web Google por así decirlo, distinguía entre productores de datos y aquellos que podrían finalmente darles valor, unificarlos en un grafo de conocimiento o, simplemente, explotarlos; en segundo lugar, se consideraba que la publicación de datos estructurados semánticamente era una forma secundaria y posterior de publicar los recursos o contenidos de la web, de manera que nadie parecía ser consciente, entre los principales productores de datos (desde el British Museum, la Biblioteca del Congreso de EE.UU o la NASA), de la posibilidad de que en el mismo acto pudieran producirse el haz y el envés de la web o, dicho de otro modo, que un gestor de contenidos, una red social o cualquier otro sistema de edición y publicación de recursos o contenidos digitales produjera ambos formatos en el mismo acto. Esto hizo posible que se diera la paradoja de que los productores de datos estructurados no se vieran a sí mismos como reutilizadores de los mismos. Por esta vía se llegó al absurdo de que los principales productores de datos no fueron capaces de usarlos para desarrollar utilidades orientadas a mejorar la experiencia web de los/sus usuarios finales. Así, por poner sólo un par de ejemplos, el British Museum o Nature han publicado excelentes datasets, realizados con una gran calidad ontológica, que prácticamente carecen de reutilizadores y que tampoco han sido utilizados por ellos mismos para la mejora de los procesos de interacción de las personas con los computadores (Human Computer Interaction) y, por ende, para la mejora de la experiencia web de sus usuarios. Por último, en la medida en la que se produjo todo lo anterior, se entendió la web semántica como un asunto que posibilitaría la interoperabilidad entre silos de datos distribuidos, algo que afectaba a la web más profunda, pero no a los usuarios finales, al menos en un primer momento.

Sin embargo, algunas empresas y cabe decir que algunos sectores en particular, entendieron bastante tempranamente que la web semántica, en la medida en la que era una estrategia tecnológica que posibilitaba que las máquinas entendieran el significado que estaba detrás de los contenidos, podría ser una estrategia muy prometedora para una explotación avanzada de la información, y por ende para el desarrollo de nuevos negocios basados en el descubrimiento de conocimiento, siempre y cuando el proyecto expresara un grafo de conocimiento de un modo interrogable por las personas. Esto sucedió en el ámbito de las empresas dedicadas a las biociencias, como las farmacéuticas, o entre los grandes publicadores científicos, como Elsevier o Thompson Reuters, pero también entre los medios de comunicación más avanzados, como puede verse cuando se analiza la estrategia digital de BBC o The New York Times, pero también de, por ejemplo, The Guardian (que tiene casi 45 millones de usuarios únicos al mes, frente a los 14 millones de El Paísdigital). Casi simultáneamente, Google compró Metaweb, la empresa que estaba construyendo Freebase, en realidad un gran grafo de conocimiento que interpretaba el conjunto de la web en forma de entidades y, a través de ellas, vinculaba o enlazaba el conocimiento implícito en la totalidad de la web. Por aquel entonces, julio de 2010, Freebase tenía ya más de 12 millones de entidades; en la actualidad tiene más de 46 millones. Esta adquisición ha permitido a Google crear un gran grafo de conocimiento basado en OWL-RDF y explotarlo como expondremos en apartados siguientes.

1.1LAS NUEVAS POSIBILIDADES DE LA REPRESENTACIÓN SEMÁNTICA DEL CONOCIMIENTO: DE LAS BÚSQUEDAS BASADAS EN LITERALES A LAS BÚSQUEDAS BASADAS EN ENTIDADES

La explotación más relevante que Google está llevando a cabo es el paso de una búsqueda basada en literales o en secuencias de caracteres a una búsqueda basada en entidades y las nuevas posibilidades que esto ofrece. La diferencia entre un literal y una entidad es crucial: en el segundo caso la máquina reconoce un determinado objeto del mundo mientras que en el primero busca secuencias de caracteres y las relaciona mediante "cuerdas" con secuencias homólogas en otros documentos. Cuando una máquina reconoce una entidad entonces entiende, por ejemplo, que "Mario Vargas Llosa" es una persona, que tiene como nombre "Mario" y como apellidos "Vargas Llosa"; que dado que es una persona tendrá una fecha de nacimiento y eventualmente de defunción y, por ende, un lugar de nacimiento y quizá de defunción, una profesión, en este acaso "artista" y, dentro de ese espectro profesional "escritor", etc...Cuando una máquina reconoce una entidad es porque es capaz de reconocer sus atributos, de hecho, una entidad lo es en función de los atributos que la conforman. Imaginemos que una máquina es capaz de identificar sólo las personas contenidas en una colección dada de documentos, entonces sería capaz de enlazarlas a todas en un grafo y nosotros podríamos realizar preguntas o interrogar a ese grafo en función de atributos concretos, como por ejemplo, las personas que nacieron en tal o cual año, o en tal o cual sitio, o bien las que comparten una profesión, por ejemplo la de escritor y, además, han nacido en Sudamérica y han escrito su obra principal en los 60 o principios de los 70. Un conjunto de interrogaciones iterado de ese tipo nos permitiría conocer el conjunto de autores que constituyen el boom sudamericano, por ejemplo, pero lo mismo podríamos preguntar por los pintores nacidos en Ciudad Real, por poner otro caso. Otra explotación muy sencilla, es mostrar, para una búsqueda dada, los detalles ontológicos (el conjunto de atributos) de la entidad principal por la que se pregunta. Es lo que hace Google cuando muestra la ficha de Velázquez, el pintor barroco español. Cuando introducimos en la caja de búsqueda el literal "Velázquez", Google infiere que preguntamos por Velázquez, el pintor, y nos muestra su fecha de nacimiento y defunción, el lugar de esos eventos y los principales cuadros de los que fue autor, también otros pintores relacionados con Velázquez, por lo general de su misma época y/o escuela. Si hacemos clic en alguno de esos cuadros, nos ofrece una nueva búsqueda con muchos más cuadros de Velázquez y si clicamos alguno de ellos podemos llegar a una ficha de Wikipedia. Desde luego, el recorrido que realizamos a partir de una petición tiene sentido porque el conjunto de entidades que manejamos, "pintores" y "obras de arte" están relacionadas, lo mismo hubiera ocurrido si se hubiera tratado de "celebrities" y "programas de televisión", o de "futbolistas" y "equipos en los que han jugado".

En los enlaces que pueden visitarse al final de este punto, se puede conocer lo que explícitamente ha publicado Google sobre el tema, incluyendo el hecho de que utilizan las descripciones ontológicas en OWL-RDF de terceros, siempre y cuando sean referentes en su campo de conocimiento. Lo que ha quedado claro en esta fase de la implantación de la Web Semántica es que cuando ésta es entendida como Grafo de Conocimiento (y no sólo como un dataset o como un conjunto de ficheros expresivos y enlazables) entonces hay muchos negocios posibles, siempre y cuando se piense en la clase de utilidades que hacen más sencillas y útiles las webs al conjunto de audiencias que en su conjunto denominamos “usuario final”. Y ello porque en cualquier colección de recursos suficientemente amplia, existe un conjunto de relaciones implícitas valiosas para diversos grupos de interés, algunos probablemente muy minoritarios, que hacen posible una explotación avanzada de los mismos, pero también porque todo grafo de conocimiento representado sobre estándares es extensible y se puede enlazar con datos provenientes de terceros, como ha demostrado Google con su acoplamiento simbiótico con Wikipedia o, más modestamente, Didactalia con su grafo dinámico de conocimiento basado igualmente en Wikipedia, vía DBPedia. A Google, ese acoplamiento le ha servido para multiplicar el tiempo que las personas permanecen en el buscador y para ampliar su utilidad a costa de los productores primarios de contenidos, lo que sin duda es un buen negocio. A continuación, los artículos de Google prometidos, en donde ellos mismos dan cuenta de su proyecto de Grafo de Conocimiento. La conclusión a la que un lector atento podría llegar es que si alguien dispone de una base de recursos de suficiente calidad, lo más interesante es enlazarlos en un grafo de conocimiento entre sí y con terceros que puedan enriquecerlo y extenderlo, porque en ello es seguro que hay nuevos negocios.

1.2MODELOS DE INTERACCIÓN DE LAS PERSONAS CON LOS ORDENADORES: UTILIDADES Y NEGOCIOS ASOCIADOS CON LA CONTRUCCIÓN DE UN GRAFO DE CONOCIMIENTO

El área de conocimiento Human-Computer Interaction (HCI) investiga el diseño y uso de la tecnología informática, con especial atención a las interfaces que intermedian entre las personas o usuarios y las computadoras. Los investigadores en el campo de la HCI observan los modos en que los seres humanos interactúan con las computadoras y tratan de desarrollar nuevos diseños y eventualmente nuevas tecnologías que posibiliten a las personas interactuar con las computadoras en formas novedosas. Human-Computer Interaction, como campo de investigación, está situado en la intersección de la informática, las ciencias de la conducta y, en especial la psicología, el diseño, el estudio de los media y otros variados campos de estudio. El término fue popularizado por Stuart K. y Allen Newell de la Universidad Carnegie Mellon y Thomas P. Moran de IBM Research en su artículo de 1983, La Psicología de la Interacción Persona-Ordenador, que constituye la obra seminal sobre el tema. A diferencia de otras herramientas con usos limitados (como un martillo o el destornillador o cualquier otra herramienta de mano, pero también como ocurre con cualquier máquina-herramienta), un ordenador tiene muchos usos posibles, lo que implica que las conversaciones o diálogos posibles entre las personas y las máquinas son múltiples y evolutivas. Hemos tratado con anterioridad de un aspecto de esta interacción, en concreto de lo relacionado con los modelos de búsqueda y recuperación de la información (véase: Human-Computer Information Retrieval: Buscadores Facetados, la siguiente generación de buscadores basados en razonamiento).

El primer negocio tiene que ver con el modo en el que recuperamos la información e interrogamos a los contenidos. Durante los últimos años, la confluencia de estudios en las áreas de IR (Information Retrieval) y HCI (Human Computer Interaction) ha generado un área de estudio específica, HCIR(Human–Computer Information Retrieval), que se ocupa de las técnicas de recuperación de información que introducen la inteligencia humana en el proceso de búsqueda. Algunas de las ideas generadas, que ya se están aplicando en los buscadores más avanzados, son:

  • Dar la responsabilidad y el control de la búsqueda a la persona. Le requiere esfuerzo, pero se le recompensa.
  • No adivinar las intenciones, sino mejorar la comunicación.
  • Soportar refinamiento y exploración.
  • Responder con un conjunto de resultados ordenado y adecuado, lo que incluye ofrecer diferentes formas de presentación según el tipo de resultados: listas, mosaicos, mapas, timeline, etc.
  • Extender los resultados y la información con contextos, que son, a su vez, resultados de otras búsquedas o de las búsquedas que de modo automático puede realizar una máquina a partir de un conjunto de interrogaciones desarrolladas por una persona (Computer-Computer Informational Retrieval)

Una de las propuestas concretas es el uso, como interfaz, de buscadores facetados. Han sido pioneros, en el uso de este tipo de interfaz, sitios web como Amazon o Ebay.

Los buscadores facetados se caracterizan por:

  • Ofrecer una sumarización basada en propiedades que caracterizan específicamente a los resultados mostrados. Por ejemplo, si se trata de mostrar obras de arte, podrían ser autor, museo, época, estilo, escuela, técnica, etc.
  • Cada posible valor de la propiedad es una opción de refinamiento de la búsqueda. Por ejemplo, una vez buscadas obras de arte sobre caballos, se dispone de una lista con estilos. Eligiendo uno de ellos,Barroco, se obtendrían 14 cuadros. De ellos, observamos que uno de los autores es Velázquez, con lo que llegamos a 3 cuadros: precisión y pertinencia
  • Las opciones de refinamiento ofrecen resultados posibles. En el ejemplo anterior, no es posible elegir como autor a Goya, ya que ninguna de sus obras correspondería al estilo barroco. Es un defecto frecuente de algunos sistemas de búsqueda la posibilidad de combinar opciones de búsqueda que no devuelven resultados.

Las tecnologías de la web semántica posibilitan extender esta clase de buscadores a repositorios de contenidos menos estructurados que los elementos de un catálogo, como es el caso de los grandes buscadores mencionados, por ejemplo, de una gran base de noticias o de videos anotados. El resultado natural de implantar un modelo de búsqueda basada en un facetado con sumarización es una mayor precisión en los resultados, un mayor tiempo de permanencia, así como la posibilidad de facilitar a los usuarios tanto especializados como ordinarios un espacio dedescubrimiento de conocimiento. Las máquinas pueden computar el conjunto de relaciones entre todas las entidades y atributos contenidos en un grafo, lo que no resulta posible para una persona, por muy experta que sea en la materia.

El segundo negocio tiene que ver con la posibilidad de generar nuevos relatos en un dominio específico (periodístico, educativo, cultural, turístico) utilizando la capacidad de las máquinas para realizar inferencias automáticas sobre el conjunto de relaciones explícitas entre el conjunto de entidades que conforman el grafo y de presentarlo de un modo útil y atractivo para los usuarios. Los relatos basados en sistemas de inferencia automáticos posibilitan desarrollar un discurso a partir del interés manifestado por una persona por un conjunto de entidades, mostrando entidades relacionadas de diverso modo con la requerida y extendiendo, por tanto, con posibilidades nuevas de descubrimiento de conocimiento y navegación, las posibilidades de diálogo y conversación entre las personas y los contenidos representados en el grafo de conocimiento. Imaginemos una noticia que trata de Manuel Fraga, la máquina puede inferir de las relaciones implícitas en el grafo su relación con otros políticos del PP, o con personas de AP, o con aquellas personas que fueron redactores de la constitución,  y abrir a partir de cada uno de esos atributos de Fraga hilos de inferencia y, por ende, de exploración y descubrimiento de conocimiento. Un relato de esta naturaleza propone un viaje y alienta la curiosidad y el instinto por saber más y aprender de las personas. En definitiva, visto desde este modo de generación de relatos automáticos, un grafo multiplica las posibilidades de permanencia y de páginas vistas.

En tercer lugar, la publicación dinámica semántica (Semantic Dynamic Publishing) de un grafo de conocimiento contiene todas las páginas webs posibles que se pueden realizar con ese contenido y, lo que es aún mejor, estas se pueden pintar automáticamente si existe un sistema de interrogación adecuado. Así por ejemplo, el grafo de conocimiento del Museo del Prado, incluye las páginas web del bodegón español del siglo XVIII, el de los desnudos femeninos del siglo XVII en la Escuela Italiana o el de los retratos reales en el siglo XVI. Todas estas búsquedas pueden ser en el caso del Prado el correlato de una posible exposición dedicada.

Supongamos lo mismo con una base de noticias. La BBC utilizó la publicación semántica dinámica en el Mundial de Fútbol de Sudáfrica de 2010. Construyó un gran grafo de conocimiento que contenía a los jugadores, los entrenadores y otros profesionales relacionados con los equipos, las selecciones, los países a los que pertenecían esas selecciones, las sedes...Todo ello le permitió mantener más de 700 páginas web (una por jugador, por equipo, por sede...) sin un gran equipo de editores. La publicación dinámica semántica posibilita generar páginas web ad hocde un suceso específico, de una persona o conjunto de ellas, de un evento, a muy bajo coste. A su vez, la publicación de información especializada just in time sobre asuntos de actualidad genera tráfico, visitas y eventualmente registro y suscripciones.

Dado que un grafo de conocimiento puede mostrar su información de múltiples maneras, listas, mosaicos, mapas,timeline, etc... y que también puede realizar inferencias que posibilitan a los usuarios descubrir conocimiento,algunas o muchas de estas utilidades pueden ser ellas mismas sólo accesibles para usuarios registrados o para suscriptores. La mayor parte de la gente aceptará registrarse y suscribirse si con ello accede a una experiencia de conversación con los contenidos de la web realmente superior, de manera que las ventajas que la tecnología ofrece para el diálogo entre las personas y las máquinas pueden convertirse en registro y eventualmente en suscriptores.

Un grafo de conocimiento, en la medida en la que anota o identifica las entidades de los contenidos, permitevalorizar esos mismos contenidos para fines distintos de aquellos para los que originalmente fueron concebidos. Así, por ejemplo, buena parte del trabajo que se realiza en un periódico o una televisión puede tener un valor educativo, turístico o cultural también. Esos contenidos podrían eventualmente tomar parte o enlazarse a través de sus entidades con grafos cuyos contenidos primarios fueron pensados para otros sectores. También pueden desarrollar un nuevo valor intrínsecamente informativo, al facilitar la construcción de presentaciones nuevas de los mismos, por ejemplo a través de portales verticales. De hecho, la facilidad para construir y mantener portales verticales puede ser una de las mayores formas de valorizar una gran base de contenidos a través de un grafo de conocimiento.

Finalmente y dado que un grafo de conocimiento dota de un corazón semántico a una gran base de conocimiento, resulta posible desarrollar un potente negocio basado en ofrecer a cada usuario de manera proactiva información ad hoc y contextual asociada con sus intereses, en especial a aquellos que están registrados o son suscriptores y cuyos datos, de hecho, pueden ser incorporados como parte del propio grafo de conocimiento. La capacidad para personalizar la información y por ende la publicidad constituye una de las principales posibilidades de un grafo de conocimiento que represente también de manera semántica a los usuarios y sus interacciones.

Por último, la representación semántica del contenido tiene un evidente impacto en el posicionamiento y, en consecuencia, en el tráfico. Dado que, de todos los debates sobre las posibilidades de la web semántica, este es el más conocido y comentado, y dado también que la pelea por las audiencias y por el tráfico es una de las más importantes y extendidas de la web, y considerando por último que la ordenación de los resultados de búsqueda está, hoy en día, en una situación monopolística, creemos que es necesario dedicar a este punto un capítulo específico.

1.3SEMANTIC SEO O EL DEBATE SOBRE CÓMO DESARROLLAR UNA ESTRATEGIA SEO GANADORA

La batalla por posicionar los contenidos ha resultado ser, en la práctica, la de entender lo más precisa y rápidamente posible las preferencias de los grandes agregadores a la hora de presentar el contenido como resultado de una determinada búsqueda. El problema en este momento de la instalación de la sociedad del conocimiento, caracterizado por una gran abundancia de información y una creciente escasez de atención, es que esta lucha ha terminado por ocupar el centro del conjunto de estrategias que caracterizan el combate por la prevalencia en la web. Es natural que así sea, pero aquí, como en todo, la posesión de tecnología diferencial puede determinar el resultado final de la riña.

La construcción de la web semántica como grafo de conocimiento ha debido entrar en conversaciones laterales, y también muy generales, que poco tenían que ver con su visión original, pero que han resultado ineludibles desde que los principales buscadores se asociaran a partir de 2010 en schema.org con el fin de desarrollar un modelo de metadatos semánticos que pudiera resultar accesible para las agencias de comunicación y publicadores web no especializados. Resulta inevitable apuntar aquí que el proyecto de los grandes jugadores en el ámbito de la búsqueda y especialmente de Google era anotar la web y que el premio para los colaboradores era mejorar, bajo ciertas restricciones o condiciones, su posicionamiento. Así es como empezó la historia de los metadatos y los microformatos y como se relacionó un gran proyecto de anotación semántica vinculado con la construcción de un grafo de conocimiento con el posicionamiento web y con la estrategia SEO. Es evidente que Google aprecia la semántica, pero especialmente aprecia los ficheros RDF.

Con relación al tema de los microdatos y los microformatos creo que el tema de fondo, aunque no sólo, debería ser el hecho de que alguien, una empresa, un publicador, un medio de comunicación... que posea gran contenidos propio, original y de calidad decida construir un grafo de conocimiento que enlace todas las miles de entidades de sus diversas colecciones de recursos entre sí, que, además, acumule varios cientos de miles de atributos a través de los cuáles se pueda viajar o navegar o formular preguntas (queries) iteradas que posibiliten recuperar la información de un modo no previsto por el administrador y no dependiente de un algoritmo que funcione con un conjunto de reglas fijas y administradas a priori. Ese grafo debería responder a un modelo ontológico normalizado que eventualmente permitiría incorporar al mismo información descrita también ontológicamente por terceros y, por tanto, enlazarlo con el de otras organizaciones que utilicen un modelo semejante o simplemente con entidades homólogas de grafos heterogéneos. Si alguien hace esto, desde luego que puede atender y soportar en su estrategia SEO cualquier modo de anotación semántica solicitado por los principales jugadores en el campo de la búsqueda.

El lenguaje técnico que utilizamos para describir ese grafo interpretable o decodificable por las máquinas es OWL-RDF; y el modo "natural" en el que incrustamos algunos atributos del RDF en el HTML se denomina RDFa, que es lo que permite que los robots de búsqueda consuman información semántica del RDF desde el HTML. Ello tiene efectos en el posicionamiento, como ya hemos dicho. Pero lo importante es el RDF que, sin descuidar lo que pueda tener de interés en SEO a través de su publicación resumida en forma de RDFa, es el que posibilita estrategias HCI (Human Computer Interaction) orientadas a explotar el grafo de conocimiento subyacente de manera relevante para las personas y, por ende, abre el camino a nuevos modelos de negocio basados en el descubrimiento de conocimiento y en la presentación de conocimiento relevante just in time.

Dicho esto el problema suele consistir en discutir, no acerca del grafo de conocimiento y de una verdadera estrategia semántica, sino sobre la bondad de los microdatos frente al RDFa y, en última instancia, frente al RDF en el marco de una conversación que considera que toda estrategia semántica tiene sentido en el marco de una batalla por el SEO, lo que resulta ser, como hemos tratado de mostrar, un punto de vista que no toma en cuanta algunas de las posibilidades más relevantes de la web semántica.

En todo caso, creemos que no existe (ni existió) tal batalla entre formatos, ni una situación de "microdatos vs RDFa", al menos para los grandes consumidores de dichos datos: los robots de búsqueda. La situación actual es que Google, y el resto de sistemas de búsqueda, quieren los datos que están implícitos en las páginas HTML, y parece no importarles mucho el formato usado, siempre que éste sea estándar. En este sentido, cabe indicar que schema.org es un "estándar de facto", creado y promovido por 4 empresas (dependiente por tanto de Bing, Google, Yahoo y Yandex), y no de una entidad certificadora independiente, como W3C, IEEE o ECMA; mientras que RDFa RDF son estándares de World Wide Web Consortium (W3C).

Hay que señalar que los Microdatos existentes se refieren a un conjunto ontológico generalista y bastante reducido. Además, el método de extensión de vocabularios y tipos de entidades definido en schema.org, que se acaba de modificar este mes de mayo, parece poco robusto, si de lo que ese trata es de soportar proyectos altamente expresivos.

Como hemos indicado en este texto, en el core de nuestra arquitectura está la publicación de datos síncrona con la publicación del contenido como tal (HTML). Comenzamos a analizar en profundidad este asunto en el año 2011, definiendo nuestra solución actual (HTML + RDFa + RDF), y publicando algunos posts que os invitamos a consultar:

A finales del año pasado, publicamos un nuevo post con nuestra visión sobre el estado actual de esta cuestión: El posicionamiento web y la Web Semántica. Semantic SEO

Dicha visión sobre SEO (que no es más que una de las explotaciones posibles de un grafo de conocimiento) se puede resumir en:

  • Hay que ofrecer datos incrustados a los buscadores.
  • El formato puede ser microdatos o RDFa. Nuestra solución estándar (por la que hemos optado en GNOSS) ofrece RDFa, pero podríamos ofrecer Microdatos (recordando que hay que elegir uno de los 2) si fuera necesario.
  • Además de los datos incrustados en HTML, en GNOSS ofrecemos una vista RDF que sólo contiene los datos, pudiendo incluir propiedades adicionales a las incluidas en HTML+RDFa.

Llegados a este punto, ¿por qué RDFa en lugar de Microdatos para una web basada en estándares de Web Semántica? Creemos que este pregunta tiene sentido en el caso de que se utilicen modelos de referencia (y no tanto en proyectos más informales de anotación semántica donde la relación entre el RDF y el RDFa puede ser mucho más casual)

Un caso que puede entenderse con claridad es aquel que utiliza algún modelo de referencia, como es el caso de los museos que utilizan el vocabulario CIDOC-CRM. Los microdatos de schema.org ofrecen un vocabulario con diversos tipos de entidades, entre los que se encuentra CreativeWork, que podríamos aplicar en este caso, y que tiene subtipos más específicos como Painting o Sculpture. Sin embargo, estos subtipos no tienen propiedades específicas.

Si revisamos las propiedades de CreativeWork nos encontramos con que podríamos usar las siguientes:

  • description. A short description of the item.
  • image. An image of the item. This can be a URL or a fully described ImageObject.
  • name. The name of the item.
  • alternativeHeadline. A secondary title of the CreativeWork.
  • author. The author of this content.
  • citation. A citation or reference to another creative work, such as another publication, web page, scholarly article, etc.
  • contentLocation. The location depicted or described in the content. For example, the location in a photograph or painting.
  • dateCreated. The date on which the CreativeWork was created.
  • keywords. Keywords or tags used to describe this content. Multiple entries in a keywords list are typically delimited by commas.
  • mentions. Indicates that the CreativeWork contains a reference to, but is not necessarily about a concept.
  • character. Fictional person connected with a creative work.

Por nuestra parte, el HTML que estamos generando para nuestros proyectos de museos contiene las siguientes propiedades RDFa, provenientes de las ontologías y vocabularios CIDOC y FRBR (simplificamos la escritura del nombre de las propiedades para que sean legibles por humanos):

Propiedades similares a Microdatos:

  • has_note. Descripción de la obra.
  • shows_visual_item. Imágenes de la obra.
  • has_title. Título de la obra
  • author.
  • is_documented_in. Trabajos documentales sobre la obra (con su título, autor, fecha, editorial y páginas)
  • has_current_location. Situación de la obra en el museo. Por ejemplo, "Sala 014".
  • has_current_location_type. Por ejemplo, "Expuesto".
  • textDate. Fecha de la obra, en texto. Por ejemplo, "Hacia 1632".
  • tagLabel. Cada una de las etiquetas de la obra.
  • represents_object. Objetos representados en la obra. Por ejemplo, "laúd" o "violín".

Propiedades no disponibles en Microdatos:

  • movedFrom. De dónde llegó la obra, por ejemplo, "Colección Real (Convento..." 
  • identifier. Por ejemplo, "P01167".
  • used_general_technique. Técnica de la obra, por ejemplo "Óleo".
  • employed_support. Soporte de la obra, por ejemplo "Lienzo".
  • dimension. Medidas de la obra.

Esto es un ejemplo que muestra la mayor expresividad del RDFa y, sobre todo, la del RDF que le sirve de soporte y fuente.

Finalmente, conviene indicar que la representación RDF de cada obra contiene, además de los expresados en RDFa, los demás datos de la obra. Se trata de la información que está disponible como facetas de búsqueda, pero que tal vez no se incluya en la ficha de la obra (ni en el HTML ni, por tanto, en el RDFa), como la "Escuela" o las demás propiedades relacionadas con Iconografía (Tema, Fauna, Flora y Personajes u otras posibles). Ello dota al grafo de una enorme plasticidad y expresividad y, por ende, de unas grandes posibilidades de extenderlo mediante el recurso de enlazarlo con grafos homólogos o incluso, con entidades concretas de grafos heterogéneos (como estamos haciendo ahora con Didactalia). También de desarrollar nuevos servicios y funciones sobre esa clase de atributos que sólo están en el RDF y no en el RDFa. Ello podría dar lugar, siempre y cuando existieran actores decididos a ello, a realizar la World Wide Web de un modo un tanto diferente a cómo actualmente la conocemos, esto es, no como un gigantesco listado o unas páginas amarillas, sino organizada en un conjunto de espacios temáticos que acumulen información vinculada con un determinado ámbito de conocimiento o realidad de un modo significativo y útil para distintas audiencias. Así en el futuro podría existir una web de datos enlazados, o basada en un grafo de conocimiento, educativa o cultural o de biología molecular, o de viajes de aventura o de…, en el que el conocimiento relevante se muestre y sea interrogable sobre la base de entidades y atributos enlazados. Esto finalmente podría dar como resultado una geometría de la web diferente a la que conocemos, basada en un conjunto de web de datos que expresan y explotan un conjunto de grafos especializados de conocimiento. En todo caso, en la web actual o en cualquier modo en el que la web se desarrolle, la batalla por el SEO será, como hemos dicho al principio de este apartado, una batalla ineludible por prevalecer en un mundo donde la información es un bien que tiende a la hiperabundancia y la atención, por el contrario, un bien cada día más escaso.

 

Ricardo Alonso Maturana. CEO GNOSS.

Logroño, junio 2015.

 

...

Las recomendaciones usuales sobre optimización del posicionamiento web se pueden resumir en dos aspectos esenciales: tener un contenido original y relevante, y disponer de un diseño HTML adecuado. Existen, sin embargo, otros elementos relacionados con la Web Semántica, que nos permiten mejorar la información que proporcionamos a los buscadores ofreciendole RDF (Resource Description Framework) que le posibiliten al buscador “comprender” lo que las cosas significan, y distinguir una persona, de un lugar, de un producto, de un servicio bancario o de una obra de arte. Se trata de ofrecer explícitamente los datos que están implícitos en el HTML de la página.

Haciendo historia, podemos indicar 3 hitos importantes en el uso de datos por parte de los buscadores en general, y de Google en particular:

  • Año 2009: Google y otros buscadores comienzan a mostrar información estructurada junto a los resultados de las búsquedas. Google llamó “rich snippets” a esta información (http://googlewebmastercentral.blogspot.com.es/2009/05/introducing-rich-snippets.html), que incluía datos como el precio de un producto y su valoración por parte de los usuarios. Estos datos podían ser marcados, dentro del HTML, con los 2 formatos disponibles en el momento: RDFa y microformatos.
  • Año 2011: se presenta la iniciativa schema.org (promovida inicialmente por Google, Bing y Yahoo), que propone un nuevo formato de marcado de datos, al que llaman microdatos. Durante los años 2011 y 2012, se planteó una batalla entre los diferentes formatos de marcado de datos estructurados, en la que estaban implicados los siguientes: metatags HTML, microformatos, microdatos (schema.org) y RDF/RDFa. Afortunadamente, esta batalla causada por la extraña alergia a los estándares de algunos ingenieros informáticos, no llegó siquiera a empezar, aunque algunos tardaran en enterarse, ya que Google y el resto de la alianza schema.org (Bing, Yahoo, etc) decidieron un enfoque más pragmático, aceptando cualquier tipo de formato: lo que querían, y siguen queriendo, son datos que les aporten información semántica y, a ser posible, un grafo que relacione entidades y conceptos. Así lo indica Google en su documentación (https://support.google.com/webmasters/answer/99170?hl=es):

“… Esto permite a Google presentar tus datos de una forma totalmente nueva y más atractiva en los resultados de búsqueda y en otros productos, como el Gráfico de conocimiento de Google (http://www.google.com/insidesearch/features/search/knowledge.html)”

Hay que indicar que Google recomienda usar un único formato dentro del HTML (http://googlewebmaster-es.blogspot.com.es/2011/07/presentamos-schemaorg-los-motores-de.html), aunque sea técnicamente posible usar varios. Se trata de una recomendación para evitar que cada formato contenga una información diferente, cayendo en contradicciones en la información expresada, lo que podría ocasionar un efecto negativo en el posicionamiento.

  • A mediados de 2012 Google presenta su Knowledge Graph, que es uno de los resultados visibles de su adquisición de la empresa Metaweb en el año 2010. La empresa Metaweb desarrolló Freebase (http://www.freebase.com), una “colección en línea de datos estructurados sobre personas, lugares y cosas”. Google ha utilizado los desarrollos tecnológicos y datos de Freebase y su conexión con la DBpedia (Wikipedia estructurada semánticamente) para mejorar su propia tecnología de indexación y presentación de resultados, con 2 usos principales:

  • Mejorar el cálculo de relevancia en los resultados de sus búsquedas.
  • Presentar “cajas de información” con respuestas directas, junto con los resultados de las búsquedas cuando esto es posible. (ver imagen siguiente)

En 2011 publicamos en Watermelon el documento, “Datos enlazados / Linked data: Formatos de presentación y posicionamiento en buscadores” En este documento explicábamos nuestra postura al respecto de la presentación de datos estructurados. Lo que se indicaba en ese post sigue siendo esencialmente válido, y es el origen de nuestra solución.

En GNOSS consideramos que hay 2 modos de ofrecer datos semánticos a los BOTs:

  • Incrustando la información dentro del HTML de la página.
  • Añadiendo una presentación alternativa de cada página en RDF, que contenga los datos implícitos.

En el primer caso, el HTML de la página incluye una serie de marcas, no visibles por los usuarios, que rodean y añaden significado al contenido así marcado. Por ejemplo, si en la página aparece el texto “Angie”, podemos añadir información, dentro del HTML de la página, para indicar a los BOTs si se trata del nombre de una persona o del título de una canción. En principio está considerado como una mala práctica que el contenido marcado sea invisible para el usuario. Este contenido debería rodear a textos legibles. En esto hay alguna excepción, como indica Google en su documentación (https://support.google.com/webmasters/answer/146898?hl=es&ref_topic=6003477):

“… no muestres contenido a los usuarios de un modo y a la vez uses texto oculto para marcar la información de forma independiente para los motores de búsqueda y para las aplicaciones web. Debes marcar el texto que se muestra realmente a los usuarios cuando estos acceden a tus páginas web.

Sin embargo, en algunas ocasiones puede resultar valioso proporcionar información más detallada a los motores de búsqueda, aunque no quieras que esa información esté disponible para los usuarios que visiten tu página. Por ejemplo, si proporcionas la latitud y longitud de un lugar, esto ayuda a Google a asegurarse de que aparece correctamente en los mapas y, de igual modo, si indicas la fecha de un evento con el formato de fecha ISO, estarás contribuyendo a que se muestre bien en los resultados de búsqueda.”

Con la lectura de los datos incrustados, los BOts mejoran la identificación e indexación del contenido y, por tanto, pueden afinar en la valoración y relevancia de la Web. Además, Google, como hemos escrito anteriormente, identifica entidades en los datos (personas, organizaciones, etc) mediante sus propios algoritmos, indexándolas en su Gráfico de conocimiento. Después, los datos obtenidos pueden ser utilizados en la construcción y visualización del Gráfico asociado a una búsqueda, lo que mejora el SEO del sitio.

De manera nativa, la plataforma GNOSS marca los datos usando RDFa, si bien sería posible usar Microdatos, alternativamente. Por ejemplo, en este fragmento de página, correspondiente a la cabecera de un recurso:

nos encontramos con el siguiente HTML, en el que se observa el código RDFa incrustado:

Es decir, dentro de ese fragmento de HTML se explicitan los siguientes datos:

  • Título de la página. dcterms:title.
  • Creador del recurso. Sioc:has_creator, foaf:Person, foaf:name.
  • Fecha de creación del recurso. Dcterms:created.

En el segundo caso, se ofrece una vista de la página en la que sólo se muestran los datos estructurados de una página HTML, en formato RDF/XML, uno de los estándares de la web semántica desarrollados por el W3C.

Por ejemplo, si el HTML de una página de GNOSS muestra esta información:

Tendríamos la siguiente vista de datos equivalente:

En el fragmento de datos anterior, expresado en RDF/XML, podemos ver los siguientes datos:

  • Un fragmento de la descripción del recurso, sioc:content.
  • El creador del recurso, dc:creator, sioc:has_creator.
  • La fecha de creación del recurso, dcterms:created.
  • El título del recurso, dcterms:title.
  • La red en donde se ha publicado el recurso, sioc:has_space.
  • Las etiquetas del recurso, sioc_t:Tag

Nos consta que los BOTs, especialmente Google, solicitan e indexan estas vistas de datos, como recursos independientes de las páginas HTML. Si tenemos en cuenta todo lo que se ha explicado hasta ahora, resulta evidente que dichas vistas de datos les resultan muy interesantes; no sólo contienen datos explícitos de entidades bien identificadas, sino que también expresan un grafo de relaciones explícito. En efecto, los BOTs no tienen que identificar y relacionar las entidades con sus algoritmos, como pasa con los datos incrustados con RDFa o Microdatos, sino que se pueden limitar a recoger la información ya procesada.

La plataforma GNOSS genera nativamente estas vistas de datos, lo que permite, además de su indexación por los BOTs, que los sitios se incorporen con sencillez al movimiento Linked Data, formado por conjunto de sitios que exponen datos enlazados (http://linkeddata.org):

Linked Data is about using the Web to connect related data that wasn't previously linked, or using the Web to lower the barriers to linking data currently linked using other methods”.

Por todo ello consideramos que la estrategia a abordar para cualquier portal web o proyecto de estrategia de posicionamiento web debiera atender las recomendaciones generales del SEO “convencional” y aprovechar todas las posibilidades que da la representación semántica en RDF de los contenidos originales y de alta calidad como vía para obtener su máxima expresión, visibilidad y relevancia.

...

El día 27 de febrero de 2014 estuvimos en Peñaranda de Bracamonte invitados por nuestros amigos del CITA (Centro Internacional de Tecnologías Avanzadas) para pensar en las posibilidades que abre para los usuarios finales (personas y organizaciones) la instalación y construcción de la Web Semántica, entendida como Linked Data Web o Web de los Datos Enlazados en el mundo de la cultura, en especial en el de las Bibliotecas.

Resumimos aquí algunas de las ideas sobre las que venimos trabajando desde hace tiempo y que hemos concretado en diferentes proyectos culturales y educativos que pueden ser visitados por los lectores, como la propia Biblioteca Escolar Digital del CITA, La Biblioteca Nacional Escolar, el buscador de obras de arte de la Fundación Lázaro Galdiano, el Meta-Museo virtual Mis Museos, las plataformas sociales de recursos educativos Inevery CreaDidactalia , Procomún, o el catálogo de blogs educativos Edublogs. Las cinco ideas que pueden consultarse a continuación representan nuestro punto de vista sobre el estado actual, los desafíos y las oportunidades derivadas de las instalación de la Web Semántica en el mundo de la cultura y la educación.

1.- Las herramientas y tecnologías basadas en estándares de la web semántica y en los principios de laLinked Open Data Web o Web de los Datos Abiertos y Enlazados (o Enlazables) permiten cumplir mejor y de una forma más ajustada el conjunto de fines y objetivos de cualquier biblioteca digital y, por ende y cuando se trata de explotaciones prácticas pensadas para satisfacer las necesidades de los usuarios finales, y no sólo de los profesionales, el proporcionar una experiencia de aprendizaje e integración del conocimiento superiores. Estas ventajas se concretan en la mejora de la experiencia en tres procesos básicos de aprendizaje y acceso al conocimiento cuales son los de, en primer lugar, recuperación de la información y acceso eficaz, rápido y pertinente a la documentación que se precisa mediante buscadores facetados con sumarización que posibilitan desarrollar sobre ellos procesos de razonamiento natural mediante la iteración de restricciones o formulación de nuevas interrogaciones sobre un conjunto dado de resultados; el relacionar, en segundo lugar, los documentos resultantes de un proceso de interrogación como el descrito con otros documentos de la propia biblioteca o espacio digital de un modo significativo y pertinente para el usuario final y también con documentos de otros espacios cuyo contenido esté también representado semánticamente; y el desarrollo, por último, de sistemas de recomendación basados tanto en las interacciones de los usuarios como en el significado de dicha interacciones (un libro para cada usuario, un usuario para cada libro).

2.- La Web Semántica permite pasar de una web de documentos a una web de datos que se conectan o enlazan con datos. Se abre así la posibilidad de enlazar conjuntos de datos (datasets) con conjuntos de datos y en última instancia datos con datos de acuerdo con una serie de principios y modelos de interrogación bien establecidos (Linked Data Web); de este modo se facilita la portabilidad e interoperabilidad de los mismos. A medida que nuestras Bibliotecas y Repositorios de Conocimiento tengan su contenido representado semánticamente podremos reorganizarlo e integrarlo de maneras nuevas y originales generando de ese modo nuevos productos de conocimiento útiles para el aprendizaje y la investigación, que se verán de este modo reforzados y acelerados en muchos de sus procesos. Las Meta-bibliotecas virtuales que ya se están acumulando o los espacios de agregación de contenidos que trascenderán el concepto de colección o catálogo posibilitarán la aceleración de los procesos de descubrimiento de conocimiento al poner en relación contenidos que no se conocían entre sí y de cuya relación se deriva un nuevo conocimiento útil para nosotros. Eventualmente será posible construir Bibliotecas Especializadas, que respondan al interés específico de un conjunto de usuarios especiliazados (pensemos por ejemplo en una Meta-biblioteca de Política Internacional o de Políticas para el Desarrollo Comparadas o de cualquier otro tema, construida sobre la base de un subconjunto de datos de los diferentes datasets publicados por un conjunto de Bibliotecas). En la medida en la que estas bibliotecas estén conectadas con otros procesos de aprendizaje como las Guías Didácticas, los Programas de Asignaturas, los Materiales Didácticos, etc...podemos acelerar y mejorar los procesos de notificación del conocimiento, como por ejemplo, proponiendo sistemas de construcción y actualización automática de bibliografías o comunicando, justo a tiempo, las novedades relacionadas con los temas que han explicitado los usuarios. Todo ello será posible gracias a que la Web Semántica permite, como hemos señalado, una aproximación más “ligera” y eficaz a la hora de integrar datos de diversos sistemas bibliotecarios.

3.- La Web semántica permite no sólo una integración de contenidos y objetos digitales, también posibilita el relacionarlos significativamente con las personas y las comunidades o grupos de interés afectados por ellos gracias a que pueden ser representados explícita y unívocamente gracias a un vocabulario específico, conocido por sus siglas en inglés como FOAF (Friend of a Friend). Esto hace posible descubrir a las personas implícitas o explícitas en un grafo de conocimiento y utilizar ese conocimiento con diferentes propósitos. En la práctica podemos extraer o sacar a la luz el grafo social implícito en un grafo documental, por ejemplo el grafo de los autores y coautores de un repositorio de artículos científico o el conjunto de noticias publicadas en un medio de comunicación que afectan a una persona dada o a un grupo determinado, etc... En definitiva, gracias a los modelos de representación de la Web Semántica somos capaces de interrogar a los sistemas sobre el comportamiento de las personas, pues no sólo conocemos los documentos o personas con las que se relacionan, sino el significado de aquellos y los intereses de éstas.

4.- En buena medida, todas las promesas de la Web Semántica relativas al desarrollo de aplicaciones orientadas a mejorar la experiencia del usuario final dependen de cómo se resuelva en la práctica el proceso de construcción y la evolución de los Modelos de Representación del conjunto de entidades que conforman el mundo ordinario (personal y profesional) en el que vivimos y con el que interactuamos las personas. Esos Modelos de Representación se construyen para un área de interés o actividad humanas y, en ese sentido, representan un Área o Dominio de Conocimiento. A esta clase de Modelos Conceptuales restringidos a un área de interés o conocimiento que tiene sentido para las personas los denominamos Modelos Digitales. Éstos, con el fin de satisfacer el atributo de "ser comprensibles o interpretables por los sistemas" deben correlacionarse elemento a elemento con una expresión o formulación técnica del mismo (esto es en OWL u Ontology Web Languaje que es el lenguaje que "comprenden" las máquinas) a la que denominamos ontología o vocabulario. Por tanto desde un punto de vista técnico diremos que un Modelo Digital se representa mediante ontologías o vocabularios. El problema es que las entidades u objetos del mundo no están relacionados entre sí de un sólo modo, ni siquiera de un sólo modo principal. Es por ello por lo que debemos proceder analíticamente con el fin de descomponer el problema de la identificación de un Modelo Digital en otros más pequeños. Así decimos que un Modelo Digital está conceptualmente compuesto de Objetos de Conocimiento relacionados de un determinado modo que a su vez contiene entidades u objetos individuales relacionamos en un modo que conocemos o que hemos acordado. Sólo entonces podemos "explicar" técnicamente a los sistemas el Modelo. Necesitamos Modelos capaces de agregar conjuntos amplios de entidades si queremos descubrir el conocimiento implícito en nuestros recursos digitales. Hablamos de agregaciones tales como "Ciudad" o "Museo" o "Biblioteca", pero también de agregaciones más abstractas como "Patrimonio Cultural". En el caso concreto de las Bibliotecas, el Modelo está bien representado por el estandar FRBR y en el de los Museos por CIDOC. CIDOC además tiene una extensión que integra y conecta FRBR. Se trata de Modelos fruto de un trabajo profesional continuado orientado a construir un consenso profesional sobre el modo en el que se relacionan los objetos y los atributos de éstos en un cierto dominio de conocimiento e interés. En la medida en la que representan un acuerdo profesional cuasi universal (y en todo caso universalizable) contienen el embrión de todas las promesas de la Web Semántica.

5.- Las explotaciones orientadas al usuario final, especialmente las explotaciones basadas en el enlazado de datos entre repositorios independientes dependen de que...existan recursos digitales representados con RDF/OWL. Las Administraciones Públicas son grandes productores de información y datos y en buena medida se han obligado a ellas mismas a publicarlos en abierto con el fin de favorecer su reutilización por parte de terceros. Los datos serán más abiertos si además se publican de acuerdo con los estandares de la Web Semántica y los principios de la Web de los Datos Enlazados (o Enlazables). Las empresas y organizaciones privadas también podrán beneficiarse de este modo de publicación, en primer lugar porque podrán integrar el conocimiento de la propia organización y en segundo lugar porque podrán enlazarse con datos públicos o con datos comercializados por terceros, lo que impactará de un modo muy sustantivo en los procesos de Aprendizaje, Cambio, Gestión del Conocimiento, Analíticos y de Inteligencia de Negocio. Es por ello por lo que el establecimiento de una política de publicación de datos en OWL/RDF se torna de este modo como un elemento necesario y tractor a la hora de acelerar y asentar la instalación de la Web Semántica en organizaciones de todo tipo, pero especialmente esto puede ser así si de lo que se trata es de construir un nuevo espacio cultural integrado desde la profundidad de los datos, con capacidades intrínsecamente educativas y que pueda “conversar” y estar fuertemente conectado con otros intereses humanos, como los relacionados con el ocio, el recreo, el viaje o el turismo.

Video sobre Biblioteca y Web Semántica. Parte I. Universidad de Salamanca. 5 de marzo de 2014

Video sobre Biblioteca y Web Semántica. Parte II. Universidad de Salamanca. 5 de marzo de 2014.

Video. Conversaciones sobre Bibliotecas y Web Semántica.

...

El Knowledge Media Institute (KMi) es el responsable de la estrategia de datos abiertos de la Open University (OU). El KMi es un centro de investigación de la OU que trabaja con intensidad en el terreno de las tecnologías semánticas. Su cometido se centra fundamentalmente en los campos de la ingeniería ontológica, la representación del conocimiento, la interoperabilidad y el data linking. Entre sus trabajos más reseñables destaca el citado proyecto de Linked Open Data de la OU, la primera plataforma de datos enlazados en el mundo universitario, que cuenta con más de 20.000 documentos reutilizables, entre los que se incluyen papers, grabaciones de clases, cursos completos…

En la actualidad, el KMi cuenta con 80 personas en distintos grupos de investigación ubicados en las siguientes líneas de trabajo: Future Internet, Knowledge ManagementMultimedia & Information SystemsNarrative HypermediaNew Media SystemsSemantic Web & Knowledge Services y Social Software. En todos los casos, el KMi hace especial énfasis en el vínculo y las posibles aplicaciones de las tecnologías semánticas y la formación y educación. El trabajo de los investigadores se refleja en hasta 130 proyectos. El KMi tiene su propio ‘termómetro’ para valorar la relevancia (Hot, Active y Classics) de cada uno de los proyectos en función del momento de desarrollo de sus trabajos. Como introducción al panel de proyectos del KMi, destacamos los siguientes:

  • LUCERO Linking University Content for Education and Research Online.
  • LinkedUP Linking Web Data for Education Project – Open Challenge in Web-scale Data Integration.
  • DECIPHER Digital Environment for Cultural Interfaces; Promoting Heritage, Education and Research.
  • LUISA Learning Content Management System Using Innovative Semantic Web Services Architecture.
  • EUCLID Educational Curriculum for the usage of LInked Data.
  • SocialLearn Learning on the open, social web.
  • Multimedia Digital Libraries New Paradigms for Browsing & Search.
  • Living Human Digital Library Technical infrastructure for the Living Human Project.
  • mEducator  Multi-type Content Repurposing and Sharing in Medical Education.
  • ROLE Responsive Open Learning Environments.
  • LTfLL Language Technology for Lifelong Learning.
  • SILVER Semantic Interactive Learning Visualisation Environment Research. 

Entre los proyectos destacados, consideramos de especial interés a LUCERO, la iniciativa a partir de la que la Open University construye su plataforma de Linked Open Data. El investigador Mathieu d’Aquin explica en la presentación Building the Open University Web of Linked Data las bases y posterior desarrollo del proyecto.

...

En artículos anteriores de Watermelon he ido escribiendo algunas entradas sobre la web de los datos y su relación con nuevos sistemas de búsqueda. Estas entradas son:

Además de las técnicas de posicionamiento tradicionalmente aplicadas al HTML (lo que podemos denominar SEO orgánica), Google, Bing y otros motores de búsqueda recomiendan el uso de metadatos embebidos en el HTML. El uso que dan a estos datos es doble. 

  • Primero, consiguen información más detallada del significado del documento, es decir, más semántica. Los metadatos embebidos definen expresamente que un texto es el nombre de una película, o las calorías de una receta, o el autor de un libro. Esto les permite presentar unos resultados de búsqueda más ajustados, e incluso que cada resultado tenga una presentación enriquecida con precios, valoraciones de los usuarios, autores, etc.
  • Segundo, los más importantes motores de búsqueda están promoviendo verticales de sus servicios, de manera que la búsqueda de recetas, viajes o libros pueda hacerse en páginas específicas. En dichas páginas se presentan facetas de búsqueda (por ejemplo, para filtrar recetas por ingrediente), que solo pueden ser obtenidas desde metadatos semánticos incrustados en el HTML.

Ninguno de estos motores ha especificado aún el peso que confieren a la existencia de metadatosrespecto a los otros parámetros conocidos de posicionamiento, ni siquiera al nivel cualitativo que suelen hacerlo. Sin embargo, la recomendación de uso está ahí y es clara.

Pasemos ahora al asunto de los formatos. Google declara leer RDFa y microformatos, además de microdatos, el reciente estándar que promueve junto a Bing y Yahoo. Por otra parte, nos consta que indexa y posiciona el contenido RDF asociado al HTML.

En nuestra opinión, una solución completa en este ámbito, que aporte el máximo valor de posicionamiento, además de las técnicas HTML habituales debería componerse de:

  • RDFa embebido, con vocabularios estándar para expresar las entidades reconocidas por los motores de búsqueda.
  • Microformatos, si la información se refiere a alguna de las entidades de las especificaciones aprobadas (como hCard para personas, o hCalendar para eventos), o a alguno de los más prometedores o exitosos borradores (como hProduct o hRecipe).
  • Microdatos, aún cuando la especificación, por su inmadurez, no llegue a cubrir el total de los datos expresados en los otros formatos.
  • RDF vinculado al HTML, que permita el enlace de datos y la construcción de contextos que enriquezcan la información.

Esta es la solución que hemos puesto en marcha en www.mismuseos.net, por ejemplo y en otros lugares de GNOSS.

Reconociendo la importancia del posicionamiento en buscadores de los recursos, el problema de la representación del conocimiento implícito en un recurso quedaría muy incompleta si no consideráramos a la vez otras explotaciones del mismo. Este es el asunto del que se ocupa la Web Semántica.

La Web semántica incide en el problema de falta de significado comprensible por las máquinas en los documentos Web, que, como consecuencia, dificulta una mejor explotación de los datos y la construcción de una Web de los datos y Web de los datos enlazados. Esta mejora debería verse en aplicaciones o sistemas conocidos, como las búsquedas, asistentes personales o sistemas de recomendación; y en sistemas incipientes o por llegar, como  descubrimiento de datos, análisis de tendencias, estudios emocionales, identidad digital, etc.

La Web Semántica resultará tanto más útil en la medida en la que las máquinas comprendan de un modo más preciso y profundo el significado de los recursos, lo que depende críticamente de la expresividad de los formatos de representación del conocimiento que utilicemos y, en este sentido, OWL-RDF no tienen competencia. Si lo que queremos es desarrollar un sistema de recuperación de la información eficiente e intuitivo, un sistema de generación de contextos pertinentes y poco ambiguos, o un sistema de recomendación inteligente, los microformatos y microdatos resultarán claramente insuficientes para muchísimas explotaciones verticales. Esto refuerza lo que hemos denominado un poco más arriba “solución completa en este ámbito”, pero en cierto modo invierte el orden de las prioridades: convendrá utilizar un estándar ontológico o vocabulario en primer lugar, para reforzarlo con microdatos y microformatos cuando de comunicarse con los buscadores se trate.

...

La comunidad tecnológica de la Web semántica ha sufrido últimamente 2 polémicas respecto a las tecnologías de soporte. Por un problema de comunicación intrínseco a la profesión de ingeniero, a veces parece que la web semántica sea sólo un conjunto de estándares, y las herramientas generadas en torno a ellos. Desde luego, esto no es así: igual que la Web no es el HTMLXHTMLCSSXML (estándares del W3C) oJavascript (estándar ECMA, mantenido por Mozilla Foundation) que componen sus páginas, la Web semántica no es RDFOWLSPARQL, o Turtle (también estándares del W3C), o cualquier otro acrónimo más o menos conocido.

La Web semántica incide en el problema de falta de significado comprensible por las máquinas en los documentos Web, que, como consecuencia, dificulta una mejor explotación de los datos, y la construcción de una Web de los datos y Web de los datos enlazados. Esta mejora debería verse en aplicaciones o sistemas conocidos, como las búsquedas, asistentes personales o sistemas de recomendación; y en sistemas incipientes o por llegar, como  descubrimiento de datos, análisis de tendencias, estudios emocionales, identidad digital, etc.

La primera de las polémicas se plantea en el uso de los estándares y tecnologías para la recuperación y explotación de datos. Según Glen Macdonald, diseñador y product manager de Needlebase (una base de datos de grafos y plataforma de explotación de datos, propiedad de ITA Software, a su vez adquirida por Google en abril de 2011), lo importante no son los estándares, sino proporcionar a los usuarios un interfaz comprensible, y un lenguaje de consulta más sencillo. Siguiendo con su razonamiento, criticaba RDF y SPARQL por poco expresivos para la gente. Es fácil estar de acuerdo con esta opinión, igual que si se refiriera a XHTML, SQL, CSS o Javascript: no son muy expresivos para la gente, aunque han servido para construir la web. En mi opinión, Macdonald confunde, interesadamente, los estándares y tecnologías con la Web semántica, aunque también es cierto que muchos de los desarrollos sobre la Web semántica se han centrado en la tecnología y poco en la gente. Además, Macdonald olvida que la búsqueda y exploración de información son sólo una parte de la Web de los datos: ¿cómo enlazar datos con datos sin estándares? O, echando la vista atrás, ¿cómo se enlazarían documentos con documentos sin un lenguaje de marcas estándar para todos ellos, es decir, sin el estándar HTML?

La segunda de las polémicas se centra en el modo de expresión de los datos en bruto, origen de la mayoría de las páginas Web dinámicas. Como ya explicamos en un post anterior, una de las opciones pasa por la incrustación de marcas dentro del HTML de las páginas, con 3 posibilidades: microformatos, RDFa y microdatos. La iniciativaSchema.org, apoyada por Bing, Google y Yahoo, propone, desde Junio de 2011, el uso de microdatos, porque “…los microdatos ofrecen el equilibrio entre la posibilidad de ampliación de RDF y la sencillez de los microformatos…”. . En primer luhar, hay que señalar que, desde la comunidad de datos enlazados, se ha recibido Schema.org como algo positivo, ya que es un paso importante hacia la creación de la Web de los datos. Como contribución y esfuerzo complementario, esta comunidad ha creado el sitio Web schema.rdfs.org, para dar soporte al uso y puesta en marcha de Schema.org, especialmente enfocado a los datos enlazados.

Volviendo a las características enunciadas en los microdatos,  es cierto que la extensibilidad es algo mayor que en los microformatos, pero también que el nivel de sencillez (o dificultad) respecto al RDF o RDFa no es muy diferente.

Si se compara la extensibilidad con el RDF, llegamos a un problema de estandarización, y de quien controla los estándares. Supongamos que un usuario quiere extender la clase Product de Schema.org, para incluir datos de automóviles: peso, medidas, cilindrada, potencia, etc. Si lo extiende por su cuenta, tiene 2 problemas. Primero, aunque Schema.org podría adoptar su extensión, si ha tenido éxito, pudiera ser que produjeran una propia, para el mismo ámbito. Segundo, y más importante, nadie, ni los robots de búsqueda, entienden a priori la nueva extensión. Podría hacerse una comunicación ad hoc del nuevo formato, externa a Schema.org, y proporcionar la documentación que explique el funcionamiento y la naturaleza de los datos extendidos. La verdad, esto suena a antiguo y, desde el punto de vista técnico y de imagen, sorprende que alguna de las empresas promotoras, tan habitualmente puristas en el uso de estándares abiertos, hayan propuesto esta solución.

Esto no sucede con RDF, donde, para empezar, los estándares son abiertos, y no propiedad de empresas. Por supuesto que es posible que alguien reinvente la rueda. Sin embargo, la posibilidad de conseguir enlazar datos con datos, si se siguen las recomendaciones de reutilización de vocabularios y ontologías en su publicación, es suficiente premio al esfuerzo, que en realidad no es tal. Además, el vínculo obligatorio entre los datos RDF y una ontología accesible y pública que los defina, consigue una auto-expresión de los datos, y posibilita su comprensión mecanizada.

La decisión técnica de Schema.org podría tener una explicación de otro tipo, si se piensa en la iniciativa adoptada recientemente por Facebook. Como es sabido, Facebook mantiene una apuesta fortísima de construcción de plataforma, que permita a otras empresas generar más y más desarrollos que complementen la funcionalidad. Pues bien, dando un paso más, Facebook ha implementado la obtención y enlazado de datos en formato RDF, desde las funciones de su API. Esto, además de convertirles de facto en el más importante nodo de datos enlazados, supone un respaldo de primer orden a los estándares de W3C.

...

En las últimas semanas se han producido comentarios bastante es.pe.cu.la.ti.vos acerca del futuro de Delicious. Distintas filtraciones sobre los planes de Yahoo! –propietario de este popular servicio de marcadores-, llegaron a provocar en algunas personas cierta desconfianza sobre su mantenimiento y, por consiguiente, sobre el destino de los contenidos de sus usuarios. Este estado de opinión se extendió por Internet. La noticia, o lo que fuera, y los consiguientes rumores generados por la comunidad de usuarios de Delicious han tenido la virtud de producir una verdadera avalancha de comentarios, post, tweets…sobre el tema. Finalmente, la fuente oficial sobre este asunto, el blog de Delicious, el pasado 17 de diciembre, en un texto ambiguo, al menos dejaba claro que el servicio continuaba pero que cualquier decisión sobre su futuro dependía de una posible venta.

En medio de este estado de cosas, Dolors Reig ha escrito un interesante post en el que habla de la utilidad del ‘bookmarking’ y sobre la conveniencia de importar los contenidos subidos a Delicious a otros lugares que ofrezcan un servicio equivalente.

 

Puedes descargar tus marcadores de Delicious a tu espacio personal en gnoss.com

Nosotros también creemos que la gente que tiene una buena colección de marcadores debería considerar seriamente esa posibilidad. Por ello, hemos desarrollado una herramienta para que un usuario de gnoss.com pueda descargarse sus marcadores de Delicious e integrarlos en su espacio personal.

¿Por qué gnoss.comgnoss.com es un espacio de redes sociales enlazadas que funciona sobre datos estructurados y enlazados; una plataforma web 3.0 pensada para aprender y trabajar que ofrece un amplio conjunto de servicios y utilidades integradas, pensadas para gestionar el conocimiento, trabajar colaborativamente y aprender de manera informal en un entorno de red. Entre estos servicios, los usuarios disponen de la posibilidad de gestionar marcadores que, en primera instancia, permite almacenar sus contenidos y clasificarlos. Este servicio dispone, además, de opciones que mejoran lo ofrecido hasta la fecha por Delicious. Las que enumero a continuación serían este conjunto de funciones avanzadas a las que me acabo de referir :

  • En gnoss.com, los marcadores no solo se etiquetan, también se categorizan, de forma que son más fáciles de recuperar y reutilizar. Esta utilidad facilita su uso en espacios de trabajo normalizados. Además, incrementa la eficacia de las estrategias de recuperación de la información basadas en razonamiento. En la actualidad, el usuario puede utilizar la búsqueda avanzada de gnoss.com; en breve, mejoraremos este servicio con un buscador facetado que permite alcanzar de manera eficaz resultados de búsqueda basados en el razonamiento.
  • Los marcadores se pueden llevar a un espacio de recursos personal –público y/o privado- y además –a diferencia de Delicious- compartir a voluntad con las comunidades de las que el usuario es miembro. Por ejemplo, una url en la que se encuentra un informe de prospectiva puede estar tanto en el espacio personal del usuario como en Innova o Prospectiva, dos comunidades en las que otros usuarios con intereses comunes la pueden disfrutar, comentar, valorar y compartir, a su vez, con otros espacios y redes.
  • Tanto en las comunidades como en el espacio personal de los usuarios de gnoss.com hablamos de algo más que de almacenar ‘bookmarks’: se pueden ‘subir’ todo tipo de archivos (Excel, Word, notas…) e incluso enviar ‘newsletters’ con los contenidos que se quieran destacar.
  • El usuario siempre puede rescatar sus datos para llevarlos donde desee a través de archivos RDF. Los datos en gnoss.com están estructurados y son enlazables. Para comprender las aplicaciones prácticas de este tipo de datos, os recomiendo recuperar el post gnoss.com enlaza sus datos con Freebase. Eso, en la práctica, significa que cuando etiqueto o categorizo cualquier clase de recurso, esos conceptos 'llaman' a sus homólogos en otros lugares de la Linked Open Data Web. En gnoss.com esto ocurre de momento con Freebase, pero ocurrirá con algunos otros lugares en breve.

 

Consideramos que estas opciones añaden algunas ventajas dignas de consideración al servicio que ya ofrece Delicious. Como decíamos, gnoss.com es una herramienta para educar y trabajar, por eso creemos que puede resultar especialmente útil en entornos corporativos o educativos donde la gestión social del conocimiento y el trabajo colaborativo pueden producir ventajas notables. En ese sentido, nos parece que ofrece un espacio ampliado para la explotación social (educativa o laboral) del 'bookmarking'. Si quieres, ahora mismo puedes probar la aplicación para migrar marcadores de Delicious a gnoss.com.

 

...

El proceso general de digitalización de la realidad está generando una capa de representación de la totalidad de las cosas y personas, pero también, y esto resulta especialmente relevante, de sus relaciones. A, por ejemplo, ‘Juan Rulfo’ y, pongamos, ‘El llano en llamas’ les une el hecho de que el primero es el AUTOR del segundo, lo que queda expresado mediante la proposición: ‘Juan Rulfo es el autor de ‘El llano en llamas’ Como veremos, la web semántica posibilita computar (deducir, razonar, buscar...) con proposiciones de ese tipo, lo que ofrece grandes posibilidades. Cuando disponemos de los datos y de sus relaciones organizados de acuerdo con los lenguajes de la web semántica (de los que he hablado en ¿Mis datos en manos de terceros? Ventajas de expresar contenidos con estándares de la web semántica), decimos que “los datos están estructurados". Por desgracia, la mayor parte de los datos de la web no están expresados de ese modo. Sin embargo también están estructurados, aunque no del modo en el que lo entienden las máquinas. Buena parte del trabajo consiste, precisamente, en convertir nuestros documentos HTML, .doc, etc...en datos estructurados. En cualquier caso y en buena medida, todos nuestros datos los estamos organizando de forma útil para las personas gracias a las redes sociales. De hecho, construir una web más inteligente parece la condición necesaria para manejar y utilizar de manera eficiente esa enorme y creciente cantidad de datos que está produciendo la actividad humana en las redes. A esta clase de datos categorizados y organizados gracias al trabajo social de las redes les llamaremos Social Data.

 

Social Data

Habitualmente los Social Data incorporan el punto de vista de las personas que los editan, o bien, dependiendo de su naturaleza, el de un grupo. Esta información que añade información a una información original suele conocerse con el nombre de metadatos. Los Social Data son, por tanto, metadatos construidos gracias al trabajo social en la red de las personas. Las colecciones de metadatos más habituales en las redes sociales son conocidas por el nombre de folksonomías, que expresan el punto de vista personal o la perspectiva personal con relación a una información o documento determinado. En ocasiones, las redes sociales, en especial cuando se trata de redes profesionales, incluyen puntos de vista más normativos para calificar la información: las taxonomías o los tesauros. La acción de asignar un determinado metadato a una información o documento se conoce con el nombre de etiquetar. El etiquetado social es la fuente primaria de producción de Social Data.

 

Google es demasiado idiota para entender lo que la gente necesita

Dado que la racionalidad humana tiene un carácter intencional o finalista, los Social Data aportan una información muy relevante a la hora de recuperar la información con una determinada finalidad o intención. Este es el modo general en el que los humanos desean recuperar información, pero no el modo en el que resuelven este problema los sistemas y buscadores. Pensemos por ejemplo en nuestra experiencia de búsqueda y recuperación de información con Google, el buscador más extendido. Google nos ofrece como resultado de una búsqueda una, habitualmente larga, lista de resultados o posibilidades ordenados en función de la relevancia que atribuye a cada uno de ellos. Eso no estaría mal en primera instancia, pero lamentablemente es todo lo que podemos hacer con Google: no podemos hacer una segunda pregunta relacionada con la primera. Imaginemos que me gustaría conocer qué hay sobre ‘buscadores semánticos que utilicen procesamiento del lenguaje natural y, además, lógica borrosa, escrito por mujeres en 2008, en alguna universidad de California o en San Francisco y alrededores’. Podemos intentarlo introduciendo en la barra del buscador "buscador semántico procesamiento del lenguaje natural lógica borrosa san francisco 2008", pero como puede imaginar casi cualquiera el resultado puede resultar sorprendente. En todo caso, a nadie se nos ocurriría utilizar ‘mujer’ o ‘alrededores’ o ‘alguna universidad de california’ como criterio de recuperación de información, porque conociendo a Google no resulta una expectativa razonable.

 

Google padece el síndrome del savant o del sabio. Es un idiota con algunas capacidades muy desarrolladas, un idiota inteligente capaz de comparar todos los caracteres de un texto con la secuencia que le proponemos, pero incapaz de entender lo que le solicitamos. En nuestro ejemplo, las categorías ‘documentos escritos por mujeres’ o ‘producidos en una universidad de california’ son difícilmente traducibles a una secuencia de caracteres que ofrezca la perspectiva de un conjunto de resultados aceptable. ¿Por qué no podemos interrogar a nuestro buscador sucesivamente, tal y como hacemos en nuestra vida ordinaria, para resolver problemas que requieren manejar grandes cantidades de información? Nuestro cerebro no está diseñado para manejar enormes cantidades de información, sino relativamente poca pero significativa; por eso nuestra razón produce como resultado de nuestras indagaciones largas listas ordenadas por relevancia, sino que opera estableciendo sucesivas condiciones o restricciones crecientes que nos conducen a un resultado o a unos pocos cuyo valor relativo pueda establecerse de un sólo golpe de vista. En una partida de ajedrez, nadie en su sano juicio consideraría una estrategia razonable el ordenar en una lista en función de sus posibilidades de conducir a la victoria, todas las posibles jugadas vinculadas con una posición dada de las fichas. Obviamente lo puede hacer Deep Blue, pero los humanos carecen de esa capacidad para computar. A cambio ‘saben lo que quieren’, lo que les permite considerar sólo la información útil para ese fin. 

 

Contextos de interpretación de la información que pueden ser entendidos por las máquinas

Los Social Data añaden un contexto explícito de interpretación a cualquier información o documento, por lo que constituyen el elemento social de la dimensión semántica de la web. La semántica de la web se construye según vemos social o colectivamente y esa información es útil porque las personas no son demasiado diferentes. 

Una ontología concreta expresa un modo de categorizar, modelar o representar nuestro conocimiento con relación a un campo, entidad u objeto determinado. Lo normal es que las ontologías representen las entidades, que en nuestro lenguaje natural son denotadas mediante los nombres propios y comunes, y sus relaciones. Como lo hacemos en un lenguaje que puede ser ‘comprendido’ por las máquinas, éstas pueden entenderse entre sí (interoperar o intercambiar datos con independencia de los formatos de almacenamiento y de las aplicaciones de gestión), pero también ‘entendernos’ e interactuar con nosotros de manera inteligente; también podemos verlo al revés, gracias a las convenciones de la web semántica nosotros podemos conversar con ellas utilizando nuestras capacidades de un modo natural, esto es, podemos razonar con ellas. ¡Esto representa una gran oportunidad para todos, que se añade a las que ofrecía el etiquetado social!

En la práctica, hay muchas cosas que necesitan conocer los sistemas, especialmente en el contexto de una red social, para poder comunicarse con sentido con las personas y para que interoperen con otros sistemas. Para que esto sea realmente posible,  precisamos que todos ellos hablen con las mismas palabras, esto es, que utilicen las mismas ontologías. A estas ontologías sobre las que existe un acuerdo (que puede ser universal, muy amplio o...menos amplio) las denominamos vocabularios. Algunos vocabularios de carácter muy general resultan especialmente importantes. Dado que los sistemas funcionan sobre la base de documentos digitalizados y descripciones de personas, las ontologías que representan nuestra idea general de lo que es un recurso o documento digital, las que modelan la descripción de una persona y aquellas que describen un sistema de categorías o tesauro resultan especialmente importantes porque permiten conectar a la mayor parte de las entidades que existen en la web. Ellas representan del modo más inclusivo a casi cualquier contenido que puede encontrarse en internet y por ello hacen que las máquinas y los sistemas puedan interoperar entre sí con pocas restricciones.

La web semántica puede definirse como el conjunto de convenciones que hace posible estructurar los datos contenidos en los distintos formatos de documentos (que generalmente están desestructurados, lo que en realidad significa que no pueden interpretarlos las máquinas), con el fin de que tanto las máquinas como las personas puedan interactuar (interoperar) entre sí de un modo más humanizado, intuitivo, eficiente y satisfactorio que lo que sucedía con la web basada en la computación. Es la base para el desarrollo de una web más inteligente y...autoconsciente.

 

Open Data y Linked Data

Open Data designa una filosofía y práctica que persigue que determinados datos estén disponibles de forma libre a todo el mundo, sin restricciones de copyright, patentes u otros mecanismos de control. Los datos pueden estar abiertos y, cuando no se utilizan los estándares de la web semántica, no resultar aprovechables por terceros.

Aún cuando los datos de una determinada aplicación web se expresen de acuerdo con los estándares de la web semántica caben diversas posibilidades:

  • Los datos pueden ser abiertos, pero no estar enlazados
  • Los datos pueden ser enlazados, pero no estar abiertos

La posibilidad de datos que sean tanto abiertos como enlazados es cada vez más viable, tanto desde el punto de vista tecnológico, como de negocio. La Web Semántica sólo puede funcionar con datos que sean tanto abiertos como enlazados. Nos referimos a esto en un post anterior. En esta entrada, la figura representa el grafo del conjunto de iniciativas y aplicaciones enlazadas que constituyen la Linked Data Web o de la Web de los datos abiertos y enlazados

Linked Data Web implica una manera de publicar contenidos en la Web que:

  •  favorece la reutilización
  •  reduce la redundancia
  •  maximiza la conectividad (real y potencial)
  •  hace posible el “efecto red” a la hora de añadir valor a los datos

 

En definitiva:                                                    Linked Data = Open Data Open Standars

 

La web semántica tiene ya un tamaño considerable, que irá aumentando a medida en la que se vayan estructurando los datos de más espacios de la web (a la par que se crean espacios con los datos ya estructurados). Los datos estructurados permiten estrategias de búsqueda que en lugar de ordenar una lista de posibles soluciones en función de la relevancia (en lugar de obligar a los humanos a entender la lógica de las máquinas), permite ir razonando hasta localizar el resultado o pequeño número de resultados que responde a las restricciones o condiciones del razonamiento. En definitiva, permiten las búsquedas basadas en el razonamiento o búsquedas facetadas.

Por otro lado, la web semántica posibilita ofrecer como resultado de una determinada búsqueda el conjunto de contextos relacionados con ella, como por ejemplo personas relacionadas, documentos relacionados, imágenes relacionas, etiquetas o metadatos relacionados, etc…Esto posibilita el poder desarrollar y evolucionar las búsquedas desde la perspectiva humana de la exploración.

En resumen, Linked Data Web sería:

  •          Base de datos global
  •          Diseñada para que las máquinas ‘hablen’ y ‘piensen’ al modo humano·        
  •          Los objetos que maneja y conecta representan cosas (como personas, películas, imágenes, libros, plantas, etc…, esto es, cualquier cosa que podamos representar mediante una ontología) y no, como ocurre en la web HTML, documentos (páginas web)
  •          Los enlaces representan relaciones entre entidades o 'cosas'
  •          Para ello se precisa de un alto grado de estructuración en las descripciones de esas entidades
  •          Es preciso, por tanto, que la semántica de las cosas sea explícita

Las tecnologías o estándares asociados con su desarrollo serían: URIs, HTTP, RDF, RDFS/OWL

 

El siguiente grafo muestra el conjunto de iniciativas que forman parte de la web semántica y sus diferentes grados de interacción:

Imagen: linkeddata.org

 

www.gnoss.com es un sistema de redes sociales enlazadas cuya ontología se expresa de acuerdo con los estándares de la web semántica. gnoss.com, además de ser un espacio Open Data, es un espacio de Linked Data, esto es, sus datos son enlazables, interpretables y expresables desde cualquier web que trabaje dentro de los estándares de la web semántica. Pero la web semántica son, en el fondo, social data pues la semántica expresa siempre un acuerdo formal o informal entre personas: no hay posibilidades de entendernos sin una idea común acerca del significado de las palabras. Esta semántica se va construyendo, es un ‘work in progress’ que se puede expresar de diferentes modo, pero que finalmente, dentro de la lógica evolutiva de la web semántica, tiende a concretarse en vocabularios estándar. Estos estándares son los que en el corto y medio plazo se irán imponiendo para resolver los profundos problemas de aislamiento a los que nos somete el no hacerlo así. Los sistemas de salud, las administraciones públicas y las grandes corporaciones están asumiendo la necesidad de trabajar con ellos si quieren aprovechar el potencial de sus sistemas y de la relación entre ellos y las personas. Poco a poco lo irán haciendo el resto de las empresas y personas. 

 

...

Todavía hoy, nuestra experiencia corriente de búsqueda tiene que ver con la presentación en una simple lista de contenidos ordenados de acuerdo con un cierto criterio de relevancia. Por otro lado, la experiencia de búsqueda en redes sociales es, por lo general, insuficiente cuando no pobre.

El pasado 5 de mayo, en el marco de la Web 2.0 Expo celebrado en San FranciscoMatt Maclaurin, director del FUSE Lab de Microsoft realizó una conferencia titulada: FUSE Labs: Remixing Social Search. No fue la única que se interrogaba sobre la futura naturaleza de las búsquedas en internet, pero sí, a mi jucio, la mejor de todas en este campo concreto. Lamentablemente no colgó la presentación, por lo que no puede encontrarse entre la documentación del Congreso.

En gnoss.com estamos trabajando en el desarrollo de soluciones de descubrimiento, exploración y recuperación de información que van un paso más allá de lo que podemos denominar 'experiencia Google'. El objetivo es construir soluciones de recuperación y búsqueda de información que exploten las enormes posibilidades derivadas del crecimiento acelerado de la web social. Estamos investigando y trabajando sobre los modos en los que pueden relacionarse la web social y las estrategias de búsqueda basadas en ella, lo que podemos llamar #SOCIAL and#SEARCH;  y ello con el objetivo de descubrir nuevas estrategias que conecten la web de los datos (lo que será laweb semántica) con su desarrollo social.

Aunque resulta difícil establecer con exactitud en qué consistirá nuestra experiencia de búsqueda dentro de no tanto tiempo, no lo es tanto describir cuáles serán algunos de sus aspectos fundamentales. Probablemente, el más relevante de todos ellos tendrá que ver con el hecho de que el proceso de descubrimiento y exploración de la información será menos documental y más social, más inteligente, razonado y restrictivo y, sobre todo, más contextual y personal. 

La riqueza social de la web precisa de nuevos modos de descubrir y presentar la información, de nuevas herramientas que provean de vistas y perspectivas de lo que ocurre y nos interesa en los espacios sociales en los que participamos, que nos ofrezcan, en suma, nuevos modos de acceder, agregar, categorizar y presentar, todo ello del modo más automático posible, la información cuando exploramos nuestras redes sociales; que faciliten, por último, el descubrimiento de información, junto con sus contextos, mediante procesos de inferencia y razonamiento, en lugar de ofrecer como resultado desmesuradas listas ordenadas por relevancia.

 

#SEARCH y #SOCIAL

Llamaremos #SEARCH a nuestra experiencia corriente de búsqueda y recuperación de información tal y como está construida de un modo general en la actualidad. #SEARCH designa lo que antes hemos denominado la “experiencia google”. Por su parte, #SOCIAL designará nuestra experiencia de vida digital entendida de la manera habitual en la que la gente la desarrolla en entornos digitales tales como Facebook, Tuenti, Twitter, Flickr o gnoss.com. 

Indudablemente, #SEARCH hace referencia de manera inmediata a un aspecto esencial de nuestra experiencia de la web. Hasta hace relativamente poco tiempo la experiencia común de la web estaba determinada por la satisfacción que producía en el usuario su experiencia de búsqueda.

En los últimos años, sin embargo, la web social ha incorporado una dimensión nueva a nuestra experiencia común de internet. Para muchas personas, #SOCIAL representa ahora su experiencia cotidiana de la web, una experiencia en muchos casos más intensa y continuada que la que puede ofrecer #SEARCH. El acelerado crecimiento y evolución de #SOCIAL está ligado de manera muy profunda al  modo en el que las personas se enfrentan y resuelven los procesos de búsqueda, exploración, descubrimiento y recuperación de la información.

El concepto de #SOCIALSEARCH está en el fondo de todos los proyectos que se están replanteando la experiencia humana con la tecnología. Matt Maclaurin consideraba, en la conferencia a la que nos hemos referido, que sin duda va a ser uno de los conductores tecnológicos de los próximos 3 años; sin embargo ¿a qué nos referimos exactamente con él? ¿A buscar información y documentación en nuestras redes sociales? ¿A buscar información y documentación a través de nuestra red social, por ejemplo preguntando o suscribiéndome a lo que hacen determinadas persona o grupos de trabajo? ¿O bien a suscribirme a conceptos o ideas, como puede ser un #hastag, en el marco de una red social? ¿A buscar personas o amigos con intereses parecidos o conexos con los nuestros en sitios como Delicious oGNOSS, en los cuáles los usuarios muestran información etiquetada y organizada sobre sus hallazgos en internet?

A diferencia de lo que ocurre con #SEARCH, en  #SOCIAL los contenidos y datos llevan incorporados un contexto social, que los caracteriza y enriquece y que, además, puede funcionar muy bien como criterio de búsqueda. Esta nueva clase de búsquedas sociales requieren de herramientas que incluyan procedimientos de interrogación y razonamiento humanos, más sofisticados e inteligentes que los que funcionaban en #SEARCH, como son los que proporciona la web semántica. En efecto, estamos fusionando o remezclando nuestras experiencias de búsqueda, exploración y descubrimiento de conocimiento con nuestra vida social en la red. En este nuevo escenario, #SEARCH necesita de #SOCIAL para crear y dar sentido a los datos. En el futuro, #SOCIAL y #SEARCH no serán actividades separadas: #SEARCH buscará en #SOCIAL y #SOCIAL dará sentido e interpretará a #SEARCH. Por último, #SEARCH necesita de #SOCIAL para generar contextos, especialmente, contextos personales de trabajo y aprendizaje. 

 

Conectividad social e integración de la información

Los siguientes gráficos muestran la relación entre la conectividad social y la conectividad de la semántica de la información (del modo en el que los humanos "acordamos" una interpretación común de las cosas) en el marco más amplio de la evolución de la web. Como se ve, la fusión de  #SOCIAL and #SEARCH aparece como una construcción inevitable en ese marco más amplio (se trata del mismo fenómeno que es observable en evolución de los lenguajes naturales: ¿cómo, si no, resulta posible que un grupo humano grande o muy grande haya llegado a interpretaciones tan comunes acerca del uso de las palabras?)

La segunda figura abunda en esta idea de conectividad entre personas e información conforme avanzamos colectivamente en los procesos de digitalización de la información. En la parte correspondiente a la tercera década de la web, se muestra un grafo con algunos de los proyectos que están colaborando en la construcción de la web semántica abriendo y enlazando sus datos.

 

...

gnoss.com es un espacio de redes sociales que pueden enlazarse con Open Data, lo que significa que sus datos están disponibles, para cualquiera que lo desee, en un formato estándar. Para ello, los datos en gnoss se expresan en una clase de ficheros denominados RDF (Resource Description Framework), que son uno de los estándares de W3C para la web semántica. En nuestro caso, un RDF es un modelo semántico de descripción de un recurso concreto cuya forma viene determinada en un lenguaje de marcado o etiquetado denominado OWL (Ontology Web Language).

Una ontología concreta expresa un modo de categorizar, modelar o representar nuestro conocimiento con relación a un campo, entidad u objeto determinado. Lo normal es que las ontologías representen las entidades, que en nuestro lenguaje natural son denotadas mediante los nombre propios y comunes, y sus relaciones. Como lo hacemos en un lenguaje que puede ser "comprendido" por las máquinas, éstas pueden "entendernos" a nosotros o, visto al revés, nosotros podemos conversar con ellas utilizando nuestras capacidades de un modo natural, esto es, podemos razonar con ellas. ¡Y esto representa una gran oportunidad para todos!

El problema es que con las ontologías pasa lo mismo que con nuestras palabras: no todo el mundo les atribuye el mismo significado. En el mundo offline casi cualquier acuerdo entre personas termina derivando en una cuestión terminológica. Cuando firmamos un acuerdo o un contrato, nos tomamos mucho tiempo para especificar que significa en concreto cada palabra. De lo contrario, pueden surgir conflictos que precisan de alguien que interprete el texto desde una posición neutral, esto es, que ejerza un arbitraje. Lo mismo pasa casi con cualquier código o sistema de normas. ¡Por eso el lenguaje jurídico se parece tanto al de los informáticos, aunque ellos no lo sepan!

Con los sistemas y las máquinas sucede lo mismo: si no utilizan la misma ontología, si no atribuyen el mismo significado y relaciones a una entidad, no pueden entenderse; y, si no se entienden, no pueden comunicarse, lo que en términos un poco más técnicos quiere decir que no pueden interoperar. Imaginemos, por ejemplo, que para un sistema la ontología de "persona" (el conjunto mínimo de atributos que permite a un sistema identificar a un humano en concreto) son: nombreapellido del padreapellido de la madre y fecha de nacimiento. Parece un descripción muy lógica e intituitiva, pero no se entenderá con otra que la describa en estos términos: nombre, primer apellido, segundo apellido, fecha de nacimiento y mucho menos con una tercera que lo haga de este modo: first name, last name, etc... Los sistemas pueden tener sus datos abiertos, pero como no se entiendan... Para ello se necesitan acuerdos, formas normalizadas de definir una determinada entidad.

Hay muchas cosas que necesitan conocer los sistemas, especialmente en el contexto de una red social, para poder comunicarse con sentido con las personas: para ser "inteligentes"; y si, además, queremos que se entiendan e interoperen con otros sistemas, precisamos que todos ellos hablen con las mismas palabras, esto es, que utilicen las mismas ontologías. A estas ontologías sobre las que existe un acuerdo (que puede ser universal, muy amplio o... Menos amplio) las denominamos vocabularios. Algunos vocabularios de carácter muy general resultan especialmente importantes. Dado que los sistemas funcionan sobre la base de documentos digitalizados y descripciones de personas, las ontologías que representan nuestra idea general de lo que es un recurso o documento digital, las que modelan la descripción de una persona y aquellas que describen un sistema de categorías o tesauro resultan especialmente importantes. Ellas representan del modo más inclusivo a casi cualquier contenido que puede encontrarse en internet y por ello hacen que las máquinas y los sistemas puedan interoperar entre sí. Por supuesto, existen muchas más ontologías y vocabularios, generalmente pertenecientes a dominios más concretos o sectoriales (como las que representan el conjunto de patologías clínicas, por ejemplo). 

 

ONTOLOGÍA DE GNOSS.COM

La ontología de gnoss.com la hemos ido construyendo nosotros, lo que quiere decir que no nos hemos fijado en el modo en el que otras personas o grupos entendían tal o cual concepto, objeto o cosa. Responde a nuestra visión del mundo. El problema en este caso radica en que, aunque se trata de una ontología abierta, las personas que la interpreten deben asumir nuestra visión para poder expresar nuestros datos en sus páginas web. Evidentemente se trata de un gran problema. Aunque no paramos de, por así decirlo, "hablar", lo hacemos en un lenguaje privado. Esto suele ser así en los albores de una tecnología, cuando no se conocen bien ni sus límites, ni sus posibilidades.

En efecto, la web semántica es algo muy nuevo y no existían acuerdos previos sobre cómo describir un tesauro o una patología clínica, del mismo modo que durante muchos años no existía un estándar que regulara el sentido de la rosca de los tornillos. Como es sabido, la estandarización industrial corrió de la mano de una oficina de estandarización (la ISO), pues bien, la de la web corre a cargo de W3C. Somos conscientes de la importancia de trabajar con estándares ontológicos si realmente queremos no sólo que nuestros datos estén abiertos y disponibles, sino que sean de verdad enlazables desde otras aplicaciones.

Como ya hemos señalado, W3C ha avanzado en la estandarización de algunas ontologías muy generales. Como son muy generales, resultan de aprovechamiento casi universal y por tanto muy útiles para resolver problemas de interoperabilidad de muy amplio espectro. Estas ontologías se refieren a:

·           El modo en el que debemos describir a una persona para que los sistemas sepan que se trata de una persona (FOAF).

·           El modo en el que deben estar descritos la información y los recursos en una red social, comunidad o grupo de trabajo colaborativo para que puedan ser interpretados y mostrados desde otra; esto es, el modo en el que debemos describir la información para que las redes sociales puedan intercambiar información o interoperar semánticamente sobre la base del conocimiento o interpretación automática de la misma por parte de los sistemas (SIOC).

·           El modo en el que organizamos o categorizamos la información (el modo en el que creamos tesauros o taxonomías) (SKOS).

En gnoss.com estamos migrando nuestra ontología con el fin de expresarla de acuerdo con estos estándares. Este trabajo estará finalizado para principios de junio de 2010 (en una semana aproximadamente), con lo que gnoss.com, además de ser un espacio Open Data, será un espacio de Linking Data, esto es, sus datos serán enlazables, interpretables y expresables desde cualquier web que trabaje dentro de los estándares de la web semántica. Estos estándares son los que en el corto y medio plazo se irán imponiendo para resolver los profundos problemas de aislamiento a los que nos somete el no hacerlo así. Los sistemas de salud, las administraciones públicas y las grandes corporaciones están asumiendo la necesidad de trabajar con ellos si quieren aprovechar el potencial de sus sistemas y de la relación entre ellos y las personas. Poco a poco lo irán haciendo el resto de las empresas y personas. Aparte de poder disponer de mis datos PARA SIEMPRE en forma segura, el hecho de que las máquinas puedan interpretar documentos en “modo casi humano” presenta grandes ventajas cuando de lo que se trata de buscar o rescatar la información o de descubrir relaciones ocultas en ella.

 

LINKED DATA vs OPEN SOURCE: POR QUÉ LAS ALTERNATIVAS BASADAS EN DATOS ABIERTOS SON SUPERIORES A LAS DE CÓDIGO ABIERTO

Jon Bishop ofrece en 9 Free Ning Alternatives And Some Open Source Solutions un resumen de las alternativas gratuitas a Ning sobre plataformas de terceros. De muchas de ellas, y de las dificultades de trasladar los contenidos a dichas plataformas ya hemos hablado. El post propone también un conjunto de soluciones Open Source (Código Abierto): BuddyPress [Message from Buddypress]; Elgg - [Message from Elgg]; PliggDolphinLovdByLess;InsoshiAstrospaces. Algunas personas han reflexionado, como nosotros, sobre los riesgos de poner los datos en manos de terceros y han llegado a la conclusión de que la solución consiste en ser propietario de la plataforma y de su código.

Se trata de una alternativa aparentemente razonable porque evitaría esa dependencia  de terceros que tantos quebraderos de cabeza nos puede llegar a dar, como se ha visto. Ahora bien, para empezar, construir una plataforma con algunas de las soluciones Open Source que existen en el mercado y que acabamos de enumerar, siempre será un trabajo y…la comunidad de desarrolladores podría abandonar en algún momento su mantenimiento. Es un riesgo, pero menor que el que supone que nuestros datos se queden en un silo del que no podamos sacarlo, pensarán algunos. Aparte del hecho de que deberemos en algún momento superar la cultura del bricolaje informático, parece necesario expresar con toda claridad algo que con frecuencia queda oculto en el debate OpenSource: el problema no está en el código, está en los datos, en poder interoperar con ellos y no simplemente en tenerlos.

Mis datos abiertos se pueden expresar en otros lugares, a través de otros ‘frames’ y, sobre todo, pueden conectarse con otros para producir una experiencia de conocimiento más expresiva, evolutiva y extensible. Porque una solución de datos abiertos tiene más extensibilidad, flexibilidad y expresividad que cualquier otra que consideremos. El código es infoestructura y por tanto tratar con él podríamos considerarlo como fontanería o bricolaje de la web. Es el equivalente a la caja de herramientas del Ford T (entonces no había muchos talleres y se asumía que el que se comprara un coche debería dedicar un buen rato a mantenerlo y, eventualmente a repararlo). Hoy día a nadie se le pasa por la cabeza que tendrá que meter mano el el motor de su coche. Pues bien, del mismo modo que no se nos ocurre, cuando compramos un piso, picar la pared  para comprobar de qué están hechas las cañerías, tampoco nos debería preocupar el código, sino sólo el hecho de que nuestros datos estén fácilmente disponibles cuando los necesite y para lo que los necesite.

Por supuesto, las soluciones menos recomendables son aquellas cuyos datos están cerrados y que, además, no son Open Source (como lamentablemente es el caso de Ning, y…de la mayor parte de las redes sociales, incluidas las muy populares); en segundo lugar, en esta lista que va de menos a más en "recomendabilidad", estarían las redes verticales construidas con Código Abierto; pero sin duda, las mejores o más recomendables serían aquellas cuyos datos están abiertos y pueden ser enlazables, esto es, las soluciones expresadas de acuerdo con los estándares de la web semántica que incluyen, a su vez, sistemas de representación del conocimiento u ontologías que son también estándar.

gnoss.com representa una solución de esa naturaleza. Es un espacio para alojar redes cuyos datos pueden conectarse con otras redes, por supuesto de las que están albergadas dentro del propio gnoss.com, pero eventualmente también con aquellas otras que estén fuera, pero que compartan la misma ontología. De las que aparecen en la gráfica de abajo, Twine, la solución conceptualmente más próxima a la nuestra, ha sido recientemente comprada por Evri y está en trance de extinción.

Conviene hacerlo notar una vez más: ¡Son los datos! Si de algo debemos preocuparnos es de ser los absolutos propietarios de los datos; una vez asegurado esto, lo demás debería darnos un poco lo mismo. Las gráficas de abajo expresan con claridad la superioridad de las soluciones Linked Open Data con relación a cualquier otra que podamos considerar y, en particular, las ventajas asociadas con nuestro proyecto.

Open Linked Data es la solución más escalable y flexible.

Y la más expresiva y extensible

  • Expresividad: es la medida de capacidad de un lenguaje para definir la semántica de un dominio de conocimiento, esto es, para representar conceptos y relaciones entre conceptos.
  • Extensibilidad: es la medida de capacidad de un lenguaje para permitir el futuro crecimiento de un sistema, es decir, la inclusión de nuevos conceptos y relaciones, y del esfuerzo requerido en el sistema para implementar la extensión.

Información relacionada:

-Si te quieres ir de Ning, deberías conocer por qué una solución Open Data puede resultar superior

-Usabilidad débil y usabilidad fuerte

Los gráficos de este post poseen Copyright de RIAM Intelearning Lab. 

...

(Cuarta y última parte de la Charla 'Redes sociales con cerebro: web semántica y empresa 2.0' ofrecida el 12 de noviembre de 2009, en el 20º aniversario de ITCL Burgos).

 

 Las empresas nacen ya en red y se desarrollan en red. La empresa red es una comunidad, una comunidad de intereses. Un invitado de ese festival del cambio es la empresa-red o empresa informacional, una clase de organización cuyos procesos tienden a tomar una forma cada vez más inmaterial o, si se prefiere, cuya acción parece concentrarse preferentemente en un rango de operaciones de naturaleza mental.

En la nueva empresa red, la tecnología posibilita la integración funcional de las áreas de la empresa y de éstas con el entorno: los clientes, el espacio, la sociedad. Estamos pasando de la gestión de procesos muy diferenciados y claramente especializados a la gestión sobre la base de comunidades de interés y ello gracias a que el propio proceso de despliegue tecnológico ha banalizado buena parte de la tecnología necesaria para ello, que hasta hace no tanto resultaba un arcano gestionado por grupos expertísimos, situando en el centro de los procesos sociales de creación de valor las ideas, los intereses y el impulso, creatividad y emprendimiento de las personas.

Esta empresa 2.0 necesita un modelo de gestión 2.0, un enfoque 2.0 y una orientación colectiva 2.0. Pero ello no puede hacerse con menoscabo de las ideas de individuo libre, de autor, de autoridad, sino sobre una ampliación de las mismas. Es indudable que la dimensión colectiva de los procesos de pensamiento, creación y relación ha adquirido un protagonismo. Pero este protagonismo no se deriva tanto de la tecnología como tal, sino de la naturaleza crecientemente compleja de los problemas que podemos afrontar sobre la base de la conectividad que nos proporciona la tecnología. Y el negocio y la creación de valor tienen que ver con nuestra capacidad para afrontar esa clase de problemas complejos que, sin duda, necesitan de una racionalidad más deliberativa, de un marco de creación más inclusivo, integrador y colectivo, de nuevas formas de agregación de las capacidades humanas, en suma, necesitan de pensamiento e inteligencia colectivas.

 

 

No socialismo 2.0: esta idea de lo colectivo no es una vuelta a los ideales del colectivismo, al SOCIALISMO 2.0 porque no implica una disminución o, eventualmente, una disolución de la IDENTIDAD y ACCIÓN INDIVIDUALES en un sujeto colectivo y, menos aún, en un sujeto colectivo de naturaleza heroica. La tecnología de la que disponemos permite MEJOR Y MÁS QUE NINGUNA OTRA ANTERIOR distinguir y reconocer quién y cuándo alguien hace qué. Es o puede llegar a ser muy transparente.

Identidad, transparencia y privacidad: La realidad ha adquirido una profundidad que hasta hace poco no tenía: antes era opaca, veíamos apenas la superficie de las cosas; ahora es mucho más transparente. Sin embargo, la identidad es también privacidad y ocultamiento. En general, tanto las personas como las empresas hemos de coexistir con un nuevo modelo de identidad asociado con el despliegue de la tecnología de internet. Porque nuestra identidad, como la de nuestras empresas es también digital. Además se está digitalizando de un modo cada vez más acelerado. Nuestra identidad digital personal o corporativa es realmente un espacio de ampliación de la identidad. Hemos de empezar a trabajar con una imagen de nosotros mismos que para los que tenemos cierta edad, los inmigrantes tecnológicos, resulta a la par fascinante y extraño (aunque en general tendamos a considerarlo peligroso).

Internet es un espacio de vida digital para las empresas y, en particular, las redes sociales son el lugar para la vida digital de las personas, las corporaciones y los grupos. Pensemos en la diferencia entre ser un discapacitado, por ejemplo, un parapléjico ahora, en el mundo Facebook y antes en la era preinternet.

Internet proporciona vida social ampliada a las personas, los grupos y las organizaciones. La tecnología proporciona el soporte para la clase de vida social ampliada, deliberativa y conversacional que está en la base de todos esos bienes sociales. En definitiva, las Tecnologías de la Información y la Comunicación (TIC) han posibilitado una caída en picado de los costes de transacción y, con ello, una ampliación de las posibilidades de relación y crecimiento reticular de las corporaciones.

Las redes sociales proporcionan 'Human powered intelligence'. Las tecnología de las redes sociales proporciona una agregación sin precedentes de puntos de vista, opiniones, contenidos… La agregación de perspectivas que proporcionan las redes permite una gestión social del conocimiento mucho más eficiente. Las redes sociales no son sólo distribución de contenidos, son especialmente conversación, intercambio y agregación. Posibilitan una gestión del conocimiento que funciona con metadatos, con datos que las personas introducen para etiquetar y catalogar la información.

Porque la solución al problema de la sobreinformación no es disminuir la información que manejamos, sino incorporar una capa superior que la describa, etiquete y, eventualmente, me permita recuperarla. Cuanta más información sobre información generemos y gestionemos, más eficiente será nuestra gestión colectiva del conocimiento. Internet posibilita la generación global y la gestión global de esa capa de información superior, de la capa global de metadatos.

Pero podemos mejorar nuestra experiencia de internet, si le enseñamos a internet a utilizar esa capa de conocimiento que colectivamente vamos creando al describir cada objeto. Si las máquinas son capaces de interpretar la información de los documentos que manejamos, nos podrían ayudar mucho en el manejo de la información, lo que inevitablemente mejoraría nuestra capacidad para generar nueva información. Esa capa de 'artificial intelligence' es la que proporciona la WEB SEMÁNTICA, una web más intuitiva, capaz de entendernos mejor y de 'dialogar' con nosotros, que dispone de cierta capacidad de razonar y de extraer conclusiones a partir de la información de la que dispone.

            

LA RED SOCIAL CON CEREBRO SERÁ SEMÁNTICA. Eso es WEB 3.0 (y siguientes). Continuará…

 Referencia: artículo sobre la 'red social con cerebro' (Gnoss: he conocido el paraíso 3.0)

 

...

Encuentra

facetas