Búzafül elemzése számítógépes látási módszerekkel
Augusztus 14-én befejeződött az Akademgorodok Matematikai Központ első műhelye. Projektkurátorként tevékenykedtem a búza fülének számítógépes látási módszerekkel történő elemzésében. Ebben a cikkben szeretném elmondani, mi történt vele.
A búza genetikája szempontjából fontos feladat a ploidia meghatározása (az azonos kromoszómahalmazok száma a sejtmagban). A probléma megoldásának klasszikus megközelítése molekuláris genetikai módszerek alkalmazásán alapul, amelyek drágák és munkaigényesek. A növénytípusok meghatározása csak laboratóriumi körülmények között lehetséges. Ezért ebben a munkában teszteljük a hipotézist: lehetséges-e számítógépes látásmódszerekkel meghatározni a búza ploiditását, csak egy fül képe alapján.

Az adatok leírása
A probléma megoldására még a műhely megkezdése előtt elkészült egy adatkészlet, amelyben minden növényfaj esetében ismert volt a ploiditás. Összesen 2344 fénykép állt rendelkezésünkre hexaploidokról és 1259 tetraproidokról.
A legtöbb növényt két protokoll felhasználásával fényképezték. Az első eset - egy vetületen egy asztalon, a második - egy ruhacsipeszen 4 vetületben. A fényképek mindig színellenőrző színvilággal rendelkeztek, szükséges a színek normalizálása és a skála meghatározása.
Összesen 3603 fotó, 644 egyedi vetőmagszámmal. Az adatkészlet 20 búzafajt tartalmaz: 10 hexaploid, 10 tetraploid; 496 egyedi genotípus; 10 egyedi növényzet. A növényeket 2015 és 2018 között termesztették az ICG SB RAS üvegházakban. A biológiai anyagot Nyikolaj Petrovics Gontcsarov akadémikus biztosította .
Érvényesítés
Az adathalmazunkban szereplő növény akár 5 fényképet is össze tud illeszteni, amelyek különböző protokollok és vetítések segítségével készültek. Az adatokat 3 rétegzett csoportra osztottuk: vonat (edzésminta), érvényes (validációs minta) és várakozás (lemaradt minta), 60%, 20% és 20% arányban. Az osztásnál figyelembe vettük, hogy egy adott genotípus minden fényképe mindig egy almintában jelenik meg. Ezt az érvényesítési sémát használták az összes képzett modellnél.
Próbálja ki a klasszikus önéletrajz és ML módszereket
Az első megközelítés, amelyet a probléma megoldására használtunk, a korábban kidolgozott meglévő algoritmuson alapul. Az algoritmus lehetővé teszi, hogy minden képből rögzítsen különböző mennyiségi jellemzők rögzített halmazát. Például a fül hossza, a gerincek területe stb. Az algoritmus részletes leírását lásd Genaev et al., A búza tüske morfometriája a 2D képek elemzésével, 2019. Ezen algoritmus és gépi tanulási módszerek felhasználásával több modellt képeztünk ki a ploidia típusainak előrejelzésére.
Logisztikai regressziós módszereket, véletlenszerű erdőket és gradiens megerősítést alkalmaztunk. Az adatokat előre normalizáltuk. Az AUC-t választottuk a pontosság mérésére .
| Módszer | Vonat | Érvényes | Ellenálló |
| Logisztikus regresszió | 0,77 | 0,70 | 0,72 |
| Véletlen erdő | 1.00 | 0,83 | 0,82 |
| Gyorsító | 0,99 | 0,83 | 0,85 |
A késleltetett mintavétel legjobb pontosságát a gradiens amplifikációs módszerrel mutattuk ki; a CatBoost implementációt használtuk.
Értelmezze az eredményeket
Minden modellhez kaptunk egy becslést az egyes tulajdonságok "fontosságáról". Ennek eredményeként megkaptuk az összes jellemzőnk listáját, fontossági sorrendben, és kiválasztottuk a 10 legfontosabb jellemzőt: penge területe, kerekségi index, kerekség, kerület, szárhossz, xu2, L, xb2, yu2, ybm. (az egyes funkciók leírása itt található).