Zum Hauptinhalt springenZum Seitenfuß springen

 |  Blog

Semantic Web Daten: Basis für Analysen und Standardisierung

Angesichts ständig wachsender Datensätze steigt die Notwendigkeit, unsere Daten mit Annotationen und Kontext zu versehen, um einen Mehrwert zu schaffen und komplexe Analysen durch Maschinen zu ermöglichen. Dies gilt insbesondere für stark vernetzte Systeme wie das Internet. Maschinenlesbarkeit kann im Internet durch semantische Annotationen erreicht werden und liefert dadurch einen Kontext für bestimmte Begriffe. Das Ergebnis wird dann als “Semantic Web” bezeichnet.

Beispielsweise hat der Begriff „Einstein“ für sich allein genommen keine sinnvolle Bedeutung. Handelt es sich um einen Rechtschreibfehler oder doch um den allbekannten Physiker? Eine Maschine hätte Schwierigkeiten, dies selbst herauszufinden. Dieses Problem wird im Semantic Web gelöst, indem der jeweils verwendete Begriff um weitere Informationen ergänzt wird. Dies kann durch Verweise auf externes Wissen oder durch Kategorisierung über Typen geschehen.

Um genau dieses Problem zu lösen, gibt es sogenannte „Ontologien“. Ontologien ermöglichen es, die Eigenschaften eines Fachgebiets und deren Beziehungen zueinander abzubilden. Ontologien ähneln in gewisser Weise einem Klassensystem wie man es aus Programmiersprachen kennt. Zur Beschreibung von Wissen gibt es bereits viele vorgefertigte Ontologien, wie z.B. FOAF (Friend of a Friend). Mit FOAF ist es möglich, Informationen wie Alter, Name, E-Mail etc. von Personen zu veröffentlichen sowie bekannte Personen zu verlinken. Sobald mehrere Personen ihre FOAF-Dokumente veröffentlicht haben, können Maschinen die sozialen Beziehungen vollautomatisch analysieren. 

WikiData ist der zentrale Speicherort für alle Daten der Wikimedia-Projekte, zu denen auch Wikipedia gehört. Verweise auf WikiData oder andere Graphen sind problemlos möglich, da alle Instanzen über einen eindeutigen IRI (Internationalized Resource Identifier) jederzeit online abrufbar sind. IRIs sind nichts anderes als Weblinks mit Sonderzeichen. Ein kleiner Ausschnitt des WikiData-Graphen ist in der Beispielgrafik unten zu sehen. Die sehr kryptisch aussehenden IRIs beschreiben unter anderem Albert Einstein (wd:Q937) und die Stadt Ulm (wd:Q3012). Das „wd:“ ist dabei die Abkürzung für die WikiData URL und der Teil nach dem Doppelpunkt ist die Identifikationsnummer.

Stellen Sie sich folgendes theoretisches Szenario für das nachfolgende Beispiel vor: Wir haben unsere Datenhaltung in Form eines Graphen umgesetzt. Das befähigt uns nach Belieben neues Wissen einzupflegen und mit bestehendem Wissen zu verknüpfen, ohne die zugrunde liegende Datenstruktur zu verändern. Zusätzlich können wir externe Datenquellen wie WikiData anbinden, um unsere eigenen Daten anzureichern. Auch Analysen über den gesamten Datenbestand mit Hilfe von KI oder komplexen Algorithmen werden durch das Semantic Web stark vereinfacht.

Die Kategorien „Person“, „Mensch“ und „Stadt“ sind in Blau abgebildet. In Grau dargestellt sind Instanzen jener Klassen und in Weiß die Werte. Am Beispiel kann man also Folgendes ablesen: Die Instanz „_:Einstein“ ist kategorisiert als „foaf:Person“ und hat im Deutschen den Namen „Albert Einstein“. Außerdem gibt es eine identische Instanz im, von uns aus externen, WikiData Graphen „wd:Q937“, die als „Mensch“ kategorisiert ist. Der Geburtsort von Albert Einstein wird über die Beziehung „wdt:P19“ auf die „Großstadt“ Ulm festgelegt.

 

Es kann eine Vielzahl solcher Verweise zwischen Graphen geben, ohne dass es eine bestimmte Richtung gibt. WikiData kann auch auf Wissen aus anderen Graphen oder Webseiten verweisen – sofern diese online zugänglich sind. Durch die Verknüpfung der Graphen entsteht ein einziger „Giant Global Graph“. Diese Vision von Tim Berners-Lee, dem Erfinder des World Wide Web, zielt also darauf ab, das gesamte Internet miteinander zu verknüpfen.

Neben solch einfachen Beispielen wie oben dargestellt, lassen sich auch komplexere Sachverhalte modellieren. Um einige Beispiele zu nennen: Relationale Datenbanken, FOAF (Soziale Netzwerke) oder SKOS (Konzeptdefinitionen).

Unser Expertenteam berät Sie gerne zum Thema Semantic Web und unterstützt Sie bei Ihrem datengetriebenen Projekt. Kommen Sie einfach auf uns zu.

Über den Autor

 

Pierre Bienert beschäftigt sich als Softwareentwickler bei M&M Software ausgiebig mit den Themen Graph-Datenbanken und Semantic-Web.  Dieses Know-How ermöglicht es ihm neues Wissen aus bestehenden Daten zu gewinnen und dieses in Enterprise Knowledge Graphs zu manifestieren. 

Erstellt von