Intelligens látás
Intelligens napszemüveglencsék a kényelmes, divatos életmód érdekében.
Facebook 10 Mesterséges látás valós időben? A YOLOv3 algoritmus Az autók önvezetése hatalmas nyomást gyakorol a mesterséges intelligencia-kutatókra.
- Kettős látású szem javító torna
- Látáskárosodás sclerosis multiplexben
- A látást gyógyító tó
- Karikák a látásélesség érdekében
Meg kell oldaniuk a számítógépes látást egyszerre akár kamerával, ráadásul valós időben, késleltetés nélkül. Bármilyen jó ötletet intelligens látás vesznek.
ZEISS akciós ajánlatok
A YOLO egy jó ötlet. Akár van LIDAR az autón, akár nincs, kamerával így is, úgy is fel kell ismerni, meg kell tudni mondani, hogy a tőlünk x méterre lévő függőleges folt az út szélén egy szemeteskuka, vagy egy ember, aki álldogál, de mindjárt lelép a járdáról.

Nem véletlen, hogy intelligens látás önvezető autókban először az Nvidia Drive PX 2tavasz óta pedig a "túl lassú" Nvidia AI helyett a Tesla által intelligens látás belül fejlesztett, hússzor gyorsabb saját neuronprocesszoros intelligens látás dolgozik az autókban. Ez az irdatlan teljesítmény azért kell, mert egyrészt a számítógépes látást mesterséges neuronhálózatokkal Deep Neural Net, DNN végezzük, és ezek eléggé lassúak bár grafikus kártyával gyorsíthatók, lásd fentmásrészt az objektumkeresésnek az a hagyományos módja, hogy egy nagyobb képet egy kisebb ablakkal végigpásztázunk, és minden "kisablakot" odaadunk a neuronhálónak feldolgozásra - ezer kisablak ezer felismerési ciklust jelent.
Majd néhány nagyobb ablakkal is végigmegyünk a képen, hátha a felismerendő objektum nagyobb, mint a pici ablakunk.
Könnyű belátni, hogy ez a megközelítés nem teljesen ugyanaz, mint amit az élőlények csinálnak. Nekünk nincs kisablakunk, sem ciklusunk. Ha elénk tárul egy kép, egyszerre mindent látunk rajta.

Óriásit léphetne előre a számítógépes látás technológiája, ha ki lehetne iktatni a kisablakos-ciklusos nyekergést a képeken. Hogy mit értünk tömegjeleneten?

Érdemes megnézni a YOLO hivatalos honlapján a beágyazott videót amelyből a fenti kép is származikhogy mi mindent ismer fel, milyen terepen lehet bevetni. A V3 összesen kilencezer!
Business Intelligence - az üzleti IT legmagasabb szintje
Kezdjük azzal, hogyan látunk mi, élőlények - hiszen ezt kell leutánoznunk. Egyszerű, mint a pofon: ha egyszerre, egy időben mindegyikhez odajut az infó, akkor egyszerre, egyidőben mindegyik el tudja végezni a feladatát.

Párhuzamosság, ugyebár. A YOLO ezt csak emulálni tudja, de elég ügyes módon teszi. Igaz, nem százmillió, hanem csak 13 x 13, azaz kimeneti neuronnal dolgozik, ami rémesen kevésnek tűnhet, de valójában így is pompásan elvégzi a feladatát.
Előfeltételek
Miért pont 13 x 13? Nos, a szerzők csak azt árulják el, miért páratlan szám.
- Intelligens napszemüveglencsék a változó fényviszonyokhoz
- Computer Vision / Machine Vision: mit jelent a Gépi Látás, és mire lehet felhasználni?
- Mesterséges látás valós időben? A YOLOv3 algoritmus - HWSW
- Hogyan kell kezelni az életkorral kapcsolatos látást
Lentebb egy ábra a dokumentációból. Mint az ábrán látható, a kimeneti neuron alakjának semmi köze nincs a végleges felismerési eredményhez.
Mindegyik kisablak önállóan képes a objektumtípus felismerésére, és mindegyikük ügyes keretrajzoló is egyben: maguk a neuronok dobják ki maguból a bounding boxot is, nincs külön detektálási lépés. Miért érdemes belevágnod az online Kubernetes képzésünkbe?
Mi kell ahhoz, hogy egy cég sikeresen éljen a Mesterséges Intelligencia lehetőségeivel? - I. rész
Nyilván az a neuron kap nagyobb prioritást a bal alsó kutya felismeréséhez, amelyik középpontosan közelebb van hozzá, de elvileg és gyakorlatilag is mindegyik neuron mindent lát.
Úgy kell őket lekorlátozni, hogy a tőlük távolabbi régiókra ne tegyenek javaslatot.
Ma bemész egy boltba, vagy megrendeled neten, előre megadott méretekben, jellemzően a jól ismert S-től XL-ig terjedő skálán.
Ezekből aztán a legvalószínűbbeket tartjuk meg, a többi megy a kukába. Hogy milyen teljesítménnyel fut ez a villámgyorsnak kinevezett jószág egy nem túl friss, de azért memóriában erős konfiguráción, azaz Intel Core i5-ös processzoron, 32 GB RAM-mal, arról készítettem egy videót.
- A Microsoft Azure-beli számítógépes látástechnológia megismerése - Learn | Microsoft Docs
- Alkalmazott Mesterséges Intelligencia | Digitális Tankönyvtár
- Robotika – Gépi látás
- Könyv látvány helyreállítása
Egy képkocka feldolgozása két másodpercbe telik, tehát ezen a gépen a sebessége fél képkocka másodpercenként, ami még i9-es CPU esetén sem lenne több, mint 4 fps ez utóbbit nem mértem meg.