Computerlinguistische Analyse von Twitterdaten

Organisatorisches

Dozentin: Tatjana Scheffler
Zeit: Mittwochs, 12-14 Uhr
Sommersemester 2013
Ort: Golm, Haus 14, Raum 215/16 (NEU!)
Module: AM4

Voraussetzungen zur Scheinvergabe

Aktive Mitarbeit
Vortrag
Eigenes Projekt und Ausarbeitung: Abgabe 31.08.2013

Hinweise für die Ausarbeitung

Hinweise

Kursbeschreibung

Soziale Medien wie Twitter bieten neue Datenquellen für linguistische Analysen. Erste Arbeiten existieren zur Verarbeitung von Twitterdaten und deren sprachwissenschaftlicher Betrachtung, beziehen sich allerdings fast ausschließlich auf englische Daten: Diese sind zahlreicher, leichter zu erhalten, und oft auch leichter zu analysieren. Zahlreiche Tools, z.B. ein dezidierter Twitter-Tagger existieren schon für die Verarbeitung von englischsprachigen Social Media-Daten. In dem Blockseminar soll die computerlinguistische Analyse von deutschen Tweets anhand von vorhandenen und neu gecrawlten Daten gemeinsam erarbeitet werden. Vorverarbeitungsskripte sind vorhanden und können angepasst werden. Mögliche Themen sind Stimmungsanalyse, Themenklassifizierung, die Erstellung von Subkorpora, lexikalische Studien (Zeit- oder Ortsbezug von Wörtern) und vieles mehr.

Semesterplan

Syllabus

Datum Thema Details
10.4. Einführung, Motivation Folien 1
17.4. Korpuserstellung Folien 2
24.4. Vorverarbeitung, Technisches & Praktisches Folien 3
1.5. Keine Veranstaltung (Tag der Arbeit)
8.5. Isa Fodor, Normalisierung
Han, Cook, Baldwin, 2012: "Automatically Constructing a Normalisation Dictionary for Microblogs"
15.5. Matthias Wegel, Topikerkennung
Karandikar, 2010: "Clustering short status messages: A topic model based approach"
22.5. Johannes Gontrom, Trendverfolgung
Benhardus, Kalita, 2012: "Streaming Trend Detection in Twitter"
29.5. Katarina Krüger, Sentimentanalyse I
Brown, Frazee, Beaver, Liu, Hoyt, Hancock, 2011: "Evolution of Sentiment in the Libyan Revolution", Blogpost: http://languagelog.ldc.upenn.edu/nll/?p=3537
5.6. Anna Lukowiak, Sentimentanalyse II
Pak, Paroubek, 2010: "Twitter as a Corpus for Sentiment Analysis and Opinion Mining" Proc. of LREC
12.6. Ulf Hillenbrand, Sentimentanalyse III
Davidov, Tsur, Rappoport, 2010: "Enhanced Sentiment Learning Using Twitter Hashtags and Smileys"
19.6. Frank Bubitz, Conversation Retrieval
Magnani, Montesi, Rossi, 2012: "Conversation retrieval for microblogging sites"
26.6. Steve Wendler, Lokationsabhängige Wörter
Arakawa, Tagashira, Fukuda, 2012: "Spatial Statistics with Three-tier Breadth First Search for Analyzing Social Geocontents"
3.7. Kurzpitch der Ausarbeitungen/Projekte alle
10.7. Zusammenfassung, Abschlussdiskussion

Literatur

Vorverarbeitung, Säuberung

Topikerkennung

Trenderkennung und -verfolgung

Tonalitätsanalyse

Meinungsbild der Zielgruppe (Sentiment Analysis)

Soziolinguistik, Stil, Variabilität

Profiling

Erkenne Meinungsführer und Multiplikatoren

IR/DR

Weitere mögliche Themen

Quellen für weitere Literatur

Mögliche Projekt-/Ausarbeitungsthemen:

Zuletzt geändert: 27. Juni 2013 (TS).