Klassificera proteiner med AI och dataspel
I en artikel i septembernumret av Nature Biotechnology presenterar forskare från KTH två metoder för att klassificera mönster i mikroskopbilder av människans proteiner.
Målet med studien har varit att förbättra annoteringen (definieringen och tolkningen) av människans proteiner som finns tillgängliga i databasen Human Protein Atlas (HPA).
Ett antal nya proteiner identifierades i projektet. Det gröna i bilden är proteinet C21orf59 som för första gången identifierats i den mystiska cellstrukturen som kallas Rods & Rings.
KTH-forskarna har samarbetat med det schweiziska startuppföretaget Massive Multiplayer Online Science och det isländska spelföretaget CCP Games. Tack vare samarbetet har man kunnat integrera klassificeringen av proteinbilderna som ett medborgarforskningsmoment i EVE Online, ett gigantiskt multiplayer online-spel. Det resulterade i mini-spelet Project Discovery som spelades av över 300,000 personer på EVE Online och genererade över 33 miljoner klassificeringar av proteinbilder. Det här är första gången som medborgarforskning har implementerats i ett dataspel och det har redan beskrivits som en milstolpe inom medborgarforskningen.
Resultatet av Project Discovery jämfördes med ett system baserat på artificiell intelligens (AI) som forskarna har tagit fram: the Localization Annotation Tool (Loc-CAT). Loc-CAT är den första generaliserbara metoden för att annotera proteiner som finns på flera ställen i cellen (så kallade multilokaliserade proteiner). Det kan fungera över många olika celltyper vilket gör det till ett användbart verktyg för att studera människans celler och dess beteende i framtiden. Trots att AI-verktyget var bättre än Project Discovery-spelarna för de vanliga klasserna av proteiner så var spelarna bättre på att identifiera ovanliga och nya mönster. Genom att kombinera Project Discovery-annoteringar med AI kunde en version av Loc-CAT med bättre prestanda tas fram.
Resultaten från denna studie har lett till förfinade annoteringar i cellatlasen i Human Protein Atlas. Dessutom har ett antal nya proteiner i den mystiska cellstrukturen som kallas Rods & Rings identifierats. Resultaten har nu integrerats i HPA-databasen och kommer utgöra en värdefull resurs för forskare över hela världen som vill förstå proteiner.
– Jag tror att vi kommer se mer integrering av vetenskapliga uppgifter i etablerade dataspel, det är ett attraktivt sätt att komma åt och dra nytta av människors hjärnkapacitet. Dessutom har medborgarforskningsspel som direkt kopplas till modeller för maskininlärning möjlighet att revolutionera analyser i storskaliga forskningsprojekt, säger Emma Lundberg, lektor vid Cellulär och Klinisk proteomik på KTH, som samtidigt vill framföra ett stort tack till alla medborgarforskare som deltagit för både deras arbete och upptäckter.
Trots detta lyckade projekt finns fortfarande mycket utrymme för förbättringar.
– Vi kan därför annonsera Human Protein Atlas 2018 Challenge på Kaggle (https://www.kaggle.com/competitions) med start 17 september. Det är en öppen bildanalys-utmaning för att klassificera subcellulära proteinmönster i dessa bilder där vinnarna kommer bidra till att hjälpa forskningen inom livsvetenskaperna framåt.
Filed under: SvenskTeknik