26c3: Einfuehrung in und Angriffe gegen Stylometrie

gepostet am 28. Dezember 2009 - 19:24 von mcp

Am Tag 2 des 26. Chaos Communication Congresses praesentierte Michael Brennan einen Vortrag ueber Stylometrie. Unter Stylometrie wird das Erkennen des Authors/der Authorin von Texten anhand von linguistischen Eigenschaften bezeichnet. Hierbei werden Charakteristika wie Wortwahl, syntaktische Struktur oder Satzlaenge verwendet. Andere Merkmale wie Handschrift, Inhalt oder Kontext werden dabei nicht betrachtet.

Dies kann eine grosse Gefahr fuer Anonymitaet beim Veroeffentlichen von Inhalten darstellen. Es wird nur ein Set von Texten benoetigt, wo der Autor/die Autorin bekannt ist, um ein Dokument mit unbekanntem Autor/Autorin diesen zuordnen zu koennen. Ein Beispiel waere Alice, die anonyme Bloggerin und Bob, ihr Arbeitgeber. Alice veroeffentlicht ein Blogpost ueber ihre beschissenen Arbeitsbedingungen und Bob besorgt sich daraufhin 5000 - 10000 Woerter geschriebenen Text von den ArbeitnehmerInnen um per Stylometrie herauszufinden, wer das Blogpost veroeffentlicht hat. Dies wird als supervised Stylometrie bezeichnet. Im Gegensatz dazu steht unsupervised Stylometrie, wo nur Aehnlichkeiten zwischen Texten entdeckt werden, um Texte anderen Texten zuordnen zu koennen (zum Beispiel um BekennerInnenschreiben Gruppen zuordnen zu koennen).

Die Frage ist nun: wie kann Stylometrie angegriffen werden? Hier gibt es einerseit Obfuscation Attack, also den Versuch ein Dokument so zu verfassen, dass der persoenliche Schreibstil nicht sichtbar ist. Bei der anderen Moeglichkeit, Imitation Attack, wird versucht einen bestimmten Author zu imitieren. Geplant ist auch eine Software, die den Schreibstil automatisiert mittels Algorithmen veraendert.

Ergänzungen

andrej holm

und anne roth können über die irrungen und wirrungen deutscher geheimdienste bezüglich der stylometry sicher Bände erzählen :)

Indymedia ist eine Plattform zur Veröffentlichung von Beiträgen, die jeder und jedem selbstverantwortlich zur Verfügung steht. Die Inhalte werden nicht redaktionell bearbeitet, sondern nur auf Einhaltung der Moderationskriterien hin überprüft und müssen dem Selbstverständnis entsprechen. Fragen, Anregungen und Beschwerden sind direkt an den jeweiligen für den Inhalt verantwortlichen Verfasser oder die Verfasserin zu richten.