2-stündig, ECTS: 4
Dozenten: | Robert Tolksdorf |
Sprache: | Deutsch |
Mailingliste: | Bitte bei https://lists.spline.inf.fu-berlin.de/mailman/listinfo/nbi_s_netzwerke anmelden! Alle Teilnehmer müssen sich in diese Mailingliste eintragen. |
Zeitraum: | 19.10.2011 bis 15.02.2012 |
Haupttermine: | Mittwoch 14 – 16 Uhr – Takustraße 9 SR 046 |
maximale Teilnehmerzahl | 30 (An-/Abmelden) |
Inhalt: | Fortgeschrittene Themen mit wechselnden Schwerpunkten aus dem Bereich Web-Technologien (moderne Markups, Semantic Web, Linked Data, Web Information Extraction, Web Mining, Ontologiemodellierung). In diesem Semester beschäftigen wir uns mit Web Information Extraktion. Die Veranstaltung wird einen Referatsteil sowie die praktische Realisierung eines Informationssystems umfassen. |
Voraussetzungen: | Grundkenntnisse in Webtechnologien, passive Englischkenntnisse |
Literatur: |
Bei den Referatsthemen sind Abschnitte aus diesen Quellen referenziert. Sie müssen den jeweils angegebenen Quellen folgen und sie für das Referat aufbereiten. |
Im Projektteil des Seminars soll von den Teilnehmern gemeinsam eine Thematik bearbeitet werden, in der sich verschiedene Probleme der Web Information Extraction finden:
Das Getty Research Institute bietet mir der Union List of Artist Names® eine Sammlung von Namen von Künstlern online an. Diese Namenssammlung ist urheberrechtlich geschützt und kann lizensiert werden. Man allerdings davon ausgehen, dass sich sämtliche Namen auch im freie Web finden lassen, allerdings eben nicht als qualitätsgesicherte Liste. Mit Hilfe von Web Information Extraction könnte man versuchen, diese Namen automatisiert aufzufinden und selber zu sammeln.
Genau dies sollen die Teilnehmer versuchen indem sie gemeinsam eine Software schreiben, die ausgehend von der Liste der Sammlungen moderner oder zeitgenössischer Kunst bei Wikipedia versucht, die darüber verlinkten Sites die Namen der in den Sammlungen vertretenen Künstlern zu extrahieren.
Wir bilden zwei bis drei Teams, die unterschiedliche Extraktionssysteme erstellen und um die beste Extraktion wetteifern. Die Spielregeln:
- Sie erstellen zusammen ein Tool, dass beginnend mit einer vorselektierten Menge von Sites die dortigen Webseiten crawlt und mit möglichst guter Treffgenauigkeit und möglichst guter Vollständigkeit Namen von Künstlern die in der jeweiligen Sammlung vertreten sind extrahiert. Ergebnis ist eine einfache Liste von Paaren aus Künstlername und Sammlung.
- Sie haben eine freie Auswahl unter den vorgestellten Tools.
- Sie organisieren die Arbeit in Ihrem Team selber.
- Jedes Team präsentiert jeden Mittwoch in 10 Minuten den aktuellen Stand.
- Am 25.1. findet ein Zwischenmeilenstein statt bei dem jedes Team innerhalb von 15 Minuten den aktuellen Entwicklungsstand des Systems und erste Extraktionsergebnisse präsentiert.
- Am 15.2. findet die Schlusspräsentation statt bei der jedes Team innerhalb von 15 Minuten den abschließenden Entwicklungsstand des Systems und Extraktionsergebnisse präsentiert.
- Zur Ermittlung des Gewinnerteams wird eine Methode entwickelt, die die Anzahl der gefundenen Namen sowie deren Treffgenauigkeit berücksichtigt. Dazu wird noch ein Format für die Ausgabe der Namen vorgegeben.
Fahrplan:
Datum | Thema | Vortragende |
---|---|---|
19.10.2011 | Einführung und Themenvergabe | Tolksdorf |
26.10.2011 | Hinweise zur Gestaltung von Referaten Zusätzlich zu dieser einfachen Hinweissammlung ist das Buch Presentation Zen von Garr Reynoldsaus unserer Sicht das bislang überzeugendste Anleitung zur Gestaltung guter Vortragsfolien. Siehe dazu auch:
| Tolksdorf |
02.11.2011 | Referat 1: Überblick und Beispiele auf Basis McCallum2005 | Beraki, Jung |
09.11.2011 | Referat 2: Survey Abschnitt 1 bis 3 – Klassifikationsmöglichkeiten für IE | Große, Starroske, Schulz, Saenz |
16.11.2011 | Referat 3: Survey Abschnitt 4.1 – Handgefertigte Extraktoren | Rotar, Schröder, Dräger, Bischoff |
23.11.2011 | Referat 4: Survey Abschnitt 4.2 – Überwachte Extraktoren | Hermann, Kahl, Do, Schellenber |
30.11.2010 | Referat 5: Survey Abschnitt 4.3 und 4.4 – Halbüberwachte und unüberwachte Extraktoren | Sidykh, Hasan, Dahlke |
07.12.2010 | Referat 6: Survey Abschnitt 5 – Vergleich | Wei, Siripanya, Zhang |
14.12.2010 | Rechercheergebnisse zu weiteren einsetzbaren IE SystemenPlanung Projektarbeit | Benjamin ThorandTeilnehmer Tolksdorf |
21.12.2010 | — | |
29.12.2010 | — | |
04.01.2012 | Projektarbeit Kickoff und Organisation, Architekturplanung | |
10.01.2012 | Projektarbeit Planungsstand und Status | |
18.01.2012 | Projektarbeit Planung für Zwischenmeilenstein | |
25.01.2012 | Projektarbeit Zwischenmeilenstein | |
01.02.2012 | Projektarbeit Planungsstand und Status | |
08.02.2012 | Projektarbeit Planung Abschlusspräsentation | |
15.02.2012 | Projektarbeit Abschlusspräsentation |
Teamplanung für die Projektarbeit:
Team 1:
Team 2:
Team 3: