March 2008 Archives

Als programmeur gebruik je vaak fora en discussie omgevingen om oplossingen voor bepaalde vraagstukken te vinden. Waar iemand zich bevindt is dan niet van belang. Zolang er maar een internetverbinding mogelijk is. Toch is het ook handig om te weten of er mensen met dezelfde vaardigheden fysiek in je omgeving zijn. Voor bijvoorbeeld een Django sprint waar mensen met elkaar rond de tafel gaan zitten om gezamenlijk bugs op te lossen, functionaliteit uit te breiden of vertalingen te ontwikkelen met als doel om, in geval van Django, een framework te verbeteren.

Een geografische visualisatie van deze informatie is dan de manier om iemand inzicht te geven in wie zich in de buurt bevindt.

djangopeople_1.gif

Pratende met vrienden over het visualiseren van data is er vaak de vraag wat het dan precies inhoud, waar ik de grenzen van het onderwerp trek. Allemaal kennen ze wel de getekende uitleg bij nieuwsonderwerpen of krant. Maar is dat nou data of is dat nou informatie visualisatie?

Omdat duidelijk te maken laat ik ze dan de twee verschillende uitgangspunten zien. Zoals bijvoorbeeld de kaart die het grondwaterpeil in Nederland visueel presenteert

grondwater.gif

en de wat uitgebreidere visualisatie zoals

OS2004_Zwemmen_15863a.jpg.

Het eerste voorbeeld is een weergave die naast het weergeven van de diepte van het grondwater t.o.v. het NAP ook gebruikt zou kunnen worden voor neerslag in millimeters of voor het zichtbaar maken van welke delen onder water zouden lopen als de zeespiegel een x aantal meters zou stijgen. En ook zonder tekst is de weergave een verhaal. De bronbestanden, het uitgangspunt, zijn kale data. Door de combinatie kaart en cijfers wordt het pas informatie. Dit zie ik als data visualisatie.

In het tweede voorbeeld is de tekst onlosmakelijk verbonden met het beeld. De afbeelding versterkt de tekst. Het bronbestand waarbij geïllustreerd wordt is dus al informatie. De afbeeldingen versterkt deze informatie allen maar. Hier is sprake van informatie visualisatie.

En het spannende van data visualisatie is dat je door het combineren van verschillende data verrassende informatie kunt vinden, vooral als deze interactief is...

Roken04[1].gif Om objecten te kunnen begrijpen en ordenen hebben ze namen nodig. Dit rookobject heet bijvoorbeeld een pijp en zou gecategoriseerd kunnen worden onder de verzamelnaam rookwaar. Om iets terug te kunnen vinden moeten deze naam opgenomen worden in een woordenlijst. Het liefst binnen boomstructuur waarbij zijn ouder dan bijvoorbeeld rookwaar zou kunnen heten.

Mede dankzij enerzijds de opkomst van de multimedia waarbinnen bewegende beelden een steeds grotere rol spelen en anderzijds de mogelijkheid voor iedere internet gebruiker om zelf tekst en beeld te publiceren is het echter ondoenlijk om alle afzonderlijke beelden handmatig te labelen en in te delen. Het zou een te omvangrijke klus zijn, zeg maar gerust onmogelijk. Binnen een lap tekst kan er nog op de afzonderlijke woorden gezocht worden maar bij beeld is dit onmogelijk. Er is geen houvast aan tekst om toch een soort automatische analyse, indexering, ordening en ontsluiting te maken. Je ziet dan ook steeds meer initiatieven die hier oplossingen voor ontwikkelen. MediaMill bijvoorbeeld.

MediaMill, ontwikkeld binnen de universiteit van Amsterdam, is een semantische zoekmachine die gebaseerd op de nieuwste technologische ontwikkelingen dat al kan. Ze hebben op onder andere de gebieden van afbeelding en video verwerking, computer vision, taal- en spraaktechnologie, lerende machines and informatie visualisatie de grenzen opgezocht.

mediamill_1.jpg

mediamill_2.jpg

PDF met achtergrondinformatie
Concept-based Video Indexing and Retrieval (juli 2007)

top10.gif Wil je weten welke informatie uit de media de gemoederen het meest bezig hielden? Probeer dan eens de site Peilend.nl. Deze site mede ontwikkeld door de UvA koppelt via het web verkregen informatie (uit o.a. Algemeen dagblad, NRC, Trouw) aan het aantal reakties op de verschillende berichten. Ook kun je zoeken naar de 10 meest genoemde steden in bijvoorbeeld de verschillende nieuwsartikelen (in- of exclusief reakties) op woensdag 6 maart.

Wil je weten welke namen het meest zijn gebruikt in de afgelopen week in alle artikelen genereert de applicatie een prachtige tagcloud voor je.

peilendnl.gif

De applicatie probeert inzicht te krijgen in de 'commentosphere' (de wereld van het reageren op nieuwsartikelen). Ze probeert hierbij vragen te beantwoorden zoals wie regaeert er, reageren ze op elkaar, in welke taal wordt er gereageerd, waar komen ze vandaan, hoe kun je een persoon achter een reaktie indentificeren, etcetera.

Het geheel is gebaseerd op de bachelor thesis 'Applied Text Analytics for Comments on News-Articles' (PDF) van Anne Schuth.

ABSTRACT
Several on-line daily newspapers offer readers the opportunity to directly comment on articles. In the Netherlands this feature is used quite often and the quality grammatically and content-wise) is surprisingly high. The paper develops techniques to collect, store, enrich and analyze these comments. After giving a high-level overview of the Dutch 'commentosphere' we zoom in on extracting the discussion structure found in flat comment threads; people not only comment on the news article, they also heavily comment on other comments, resembling discussion fora. We show how techniques from information retrieval, natural language processing and machine learning can be used to extract the 'reacts-on' relation between comments with remarkably high precision and recall.

Archief

Over dit archief

This page is an archive of entries from March 2008 listed from newest to oldest.

February 2008 is the previous archive.

April 2008 is the next archive.

Lees recente content in de linker kolom of blader door het archief om alle content te vinden.

www.flickr.com
This is a Flickr badge showing public photos and videos from Amsterdam, statistisch bekeken. Make your own badge here.
Creative Commons License
This weblog is licensed under a Creative Commons License.
Powered by Movable Type 4.21-en