
Sedí u PC muž nebo žena? Vědcům stačí k rozpoznání pohlaví jediný tweet
Jan Kouba
10. 8. 2011
Vědci vyvinuli metodu, jak zjistit pohlaví izolováním specifických slov na sociálních sítích či komentářích na internetu. A pohlaví není poslední informace, kterou o sobě prozrazujete. Podle formy psaného projevu jde rozpoznat i politické názory!
Analýza textu má dlouhou tradici. Vědci podle počítačového algoritmu zkoumají Bibli a různé jiné texty, kde se snaží zjistit něco o pisateli, co člověk není s to zachytit. O něco podobného se pokusili vědci ze společnosti Mitre.
Ti si vybrali Twitter pro tvorbu algoritmu, který dokáže bezchybně určit pohlaví pisatele. Vědci nejdříve sesbírali u testovacího vzorku informace o bydlišti, popis, jméno a skutečné jméno. Počítač dokázal podle vědců rozeznat správně 89 % uživatelů už jen dle jména.
Společnost Mitre se však zaměřila na všechny aspekty. Počítač vychytal 66% úspěšnost, když analyzoval jen jediný tweet uživatele. Pokud analyzoval všechny uživatelovy tweety, měl úspěšnost 75 %. Při analýze popisu 71 % a přezdívky 77 %. Po sečtení všech dat vznikla průměrná úspěšnost 92 %.
Jak to ale dokázali?
Velkou roli při analýzách sehrálo užívání interpunkce. Použití smajlíků a slov jako je láska, roztomilý, šťastný, maminka, spánek, škola, dítě, postel, čokoláda, nenávist nebo i zkratek LOL, OMG je mnohem rozšířenější u žen.
Ženám patří například i spojení můj jogurt. Mužská nejspecifičtější slova jsou naproti tomu dle studie Google a http. Spojení, která jsou přisuzována mužům, jsou dost pochopitelná – má žena, má přítelkyně, moje pivo.
Víte, jak v Norsku bojují proti agresivitě? Tamní obchodní řetězce stahují z prodeje násilné videohry!
Vědci z Mitre šli ještě dál, nespokojili se pouze s odhalováním pohlaví, ale pustili se také do politického smýšlení. Mezi politickými názory již nebyly tak jednoznačné hranice, a tudíž se jedná více o domněnky než 100% fakta. Z posbíraných dat ale výzkumníci předpokládají, že Tweety o józe, vegetariánství a Los Angeles ve více případech značili demokraty.
Naproti tomu tweety o Walmartu a zbraních republikány. Tento algoritmus by mohl být nápomocný při sociologických studiích. V horším případě jako skvělý nástroj pro cílené marketingové kampaně.