Która sztuczna inteligencja jest bardziej głodna?

Słowa kluczowe: wykrywanie odżywiania, rozpoznawanie obrazu żywności, sztuczna inteligencja, głębokie uczenie się, uczenie maszynowe, etykieta żywności, aplikacje spożywcze

Cel, powód

Celem tego badania jest porównanie czterech usług rozpoznawania obrazów: Amazon Rekognition, Google Vision, Clarifai i Instagaze oraz ustalenie, która usługa głębokiego uczenia się rozpoznawania obrazów jest najbardziej zdolna i precyzyjna w wykrywaniu etykiet żywności na podstawie obrazów.

tło

Automatyczne rozpoznawanie obrazów żywności budzi wiele emocji, ponieważ identyfikowalność żywności może rozwiązać problemy związane z dobrym samopoczuciem, niedoborami żywieniowymi, aplikacjami opieki zdrowotnej i zarządzaniem dietą. Sztuczna inteligencja w wykrywaniu obrazu żywności może również pomóc epikurejom i przekąskom w podejmowaniu mądrzejszych i bardziej świadomych decyzji żywieniowych. Codziennie robimy niezliczone zdjęcia żywności, nie patrząc na informacje o wartości odżywczej ani nie zdając sobie sprawy z tego, jak wpływa ona na nasze zdrowie.

W ostatnim badaniu zebraliśmy obrazy ze źródeł internetowych i przeanalizowaliśmy je przy użyciu wiodących usług rozpoznawania obrazów: Google Vision, Amazon Rekognition, Microsoft Computer Vision i Instagaze. Doszliśmy do wniosku, że Instagaze ma najwyższą precyzję obrazu i precyzję etykiety, a następnie Google Vision w porównaniu z innymi usługami rozpoznawania obrazów.

Biorąc pod uwagę wyniki naszego poprzedniego badania, przetestowaliśmy Google Vision API z obrazem pizzy serowej pobranej ze smartfona. Co zaskakujące, Google Vision nie był w stanie dokładnie wykryć zdjęcia pizzy z serem zrobionego ze smartfona, gdy prawidłowo rozpoznał niezwykle podobny obraz ze źródła internetowego.

Ryc. 1: Zdjęcie po lewej stronie pochodzi z Internetu, a zdjęcie po prawej jest przechwytywane ze smartfona i pokazuje odpowiednie etykiety wygenerowane z Google Vision dla kawałka pizzy

Rozpoznawanie obrazu żywności jest trudne ze względu na charakter produktów spożywczych. Postępy w wykrywaniu etykiet z obrazami żywności były skąpe. Pokarmy są zwykle przedmiotami odkształcalnymi, co utrudnia proces definiowania ich struktury. Ponadto istnieją tylko ograniczone informacje, które można uzyskać z obrazów żywności; takie jak kolor żywności, jedzenie jest dobrze oświetlone i gęstość jedzenia. Pomimo tych przeszkód głębokie sieci neuronowe przewyższają tradycyjne podejścia, ale mogą stać się stronnicze i zawodne w prawdziwym świecie, jeśli zostaną przeszkolone na profesjonalnie wyselekcjonowanych obrazach.

Aby uzyskać głębszy wgląd, przetestowaliśmy 100 zdjęć żywności pobranych ze smartfona i porównaliśmy: Amazon Rekognition, Google Vision, Clarifai i Instagaze. Zarówno Clarifai, jak i Instagaze mają wyspecjalizowany model głębokiego uczenia „Żywność”, który rozpoznaje produkty żywnościowe na zdjęciach.

Eksperyment i procedura

W naszym badaniu wybraliśmy obrazy z różnych kuchni, aby uniknąć stronniczości. Obrazy najpierw zmieniono na 640 x 480 pikseli i przekonwertowano na format JPEG, aby zapewnić ich przetwarzanie we wszystkich usługach w tym samym formacie.

Ryc. 2: Zdjęcia osobiste zebrane za pomocą smartfona. Truskawkowe ciastko (lewy górny róg), tosty z awokado (po prawej), makaron warzywny zwieńczony serem (lewy dolny róg).

Dla każdego obrazu usługi uczenia maszynowego zwróciły zestaw etykiet z odpowiednimi wynikami ufności, oryginalnym adresem URL obrazu i poprawną etykietą, które zostały zapisane w osobnych zestawach danych. Zestawy danych wraz z kodem źródłowym można znaleźć tutaj.

Analiza danych

Przeanalizowaliśmy dane w oparciu o trzy kryteria:

  • Dopuszczalna kategoryzacja etykiet
  • Precyzja etykiet
  • Precyzja obrazu

Dopuszczalna kategoryzacja etykiet

Dopuszczalna klasyfikacja etykiet była wyzwaniem, ponieważ Amazon Rekognition, Google Vision, Clarifai i Instagaze wygenerowały wiele etykiet. Aby rozwiązać problem sortowania etykiet akceptowalnych i niedopuszczalnych, nasi wyszkoleni analitycy danych ręcznie dobrali wszystkie etykiety do zdjęć żywności. Na przykład na ryc. 3 „Pho”, ogólna nazwa dla Chicken Pho jest akceptowalna, podczas gdy „Dish” ogólne słowo na gotowe jedzenie, jest nie do przyjęcia.

Rycina 3: Akceptowalne i nieakceptowalne etykiety dla Chicken Pho

Precyzja etykiet

Po przejrzeniu wszystkich wygenerowanych etykiet z Amazon Rekognition, Google Vision, Clarifai i Instagaze, stwierdziliśmy, że każda usługa uczenia maszynowego wygenerowała inną liczbę etykiet dla każdego obrazu. Clarifai wygenerował najwięcej etykiet dla wszystkich obrazów, a Amazon Rekognition wygenerował najmniej etykiet.

Rysunek 4: Etykiety akceptowalne a etykiety niedopuszczalne we wszystkich usługach

Precyzja etykiety została obliczona jak poniżej:

Dokładność etykiet ogółem = Całkowita liczba akceptowalnych etykiet na obraz / Całkowita liczba wygenerowanych etykiet

Rysunek 5: Precyzja etykiet we wszystkich usługach

Odkryliśmy, że Instagaze miał najwyższą precyzję etykiety 14,30%, a Amazon Rekognition miał najniższą dokładność obrazu 5,75%. Instagaze wygenerował maksymalnie prawidłowe etykiety, a następnie Google Vision, Clarifai i Amazon Rekognition. Prawidłowe generowanie etykiet jest bardzo ważne dla informacji żywieniowych i zarządzania dietą.

Precyzja obrazu

Precyzja obrazu jest istotnym aspektem tego badania, wyższa precyzja obrazu może ostatecznie pomóc nam oszacować wielkość porcji, wartość odżywczą, całkowitą liczbę kalorii zużytych podczas posiłku. Biorąc pod uwagę to znaczenie, przyjrzeliśmy się precyzji obrazu, która jest zdefiniowana jako liczba obrazów poprawnie wykrytych z co najmniej jedną akceptowalną etykietą.

Precyzja obrazu = Całkowita liczba obrazów wykrytych z akceptowalną etykietą / Całkowita liczba zdjęć

Rysunek 6: Obrazy z akceptowalnymi i niedopuszczalnymi etykietami we wszystkich usługach. * Uwaga: Google Vision i Instagaze nie były w stanie wykryć jednego obrazu.Rysunek 7: Precyzja obrazu we wszystkich usługach

Spośród czterech testowanych technologii rozpoznawania obrazów Instagaze miał najwyższą precyzję obrazu wynoszącą 85%, a Amazon Rekognition miał najniższą dokładność obrazu wynoszącą 39%. Precyzyjne rozpoznawanie obrazów jest niezwykle pomocne przy tworzeniu planów treningowych, zachęcając do obliczeń dotyczących zdrowego odżywiania i odżywiania.

Wniosek

Instagaze osiągnął lepsze wyniki zarówno pod względem etykiet, jak i dokładności obrazu w porównaniu z Google Vision, Amazon Rekognition i Clarifai. Google Vision i Amazon Rekognition zapewniają interfejsy API rozpoznawania obrazów z agnostycznymi CNN i oba te CNN koncentrują się na klasyfikacji obrazu, z tym, co jest obecne na obrazie (na przykład jedzenie, talerz). Google Vision, w przeciwieństwie do Amazon Rekognition, nie działał zgodnie z oczekiwaniami na zdjęciach żywności wykonanych ze smartfona w porównaniu do zdjęć wykonanych z Internetu. Instagaze przewyższył wszystkie pozostałe usługi z precyzją obrazu 85% i utrzymał wyższy standard wyników w zakresie precyzji etykiet i objętości etykiet. Precyzja obrazu Instagaze zarówno dla obrazów rzeczywistych, jak i internetowych pozostała podobna, co sugeruje, że dodatkowe warstwy uczenia maszynowego Instagaze na specjalnym CNN bardzo sprzyjają rozpoznawaniu obrazów żywności. Sztuczna inteligencja za pomocą głębokich sieci neuronowych może zapewnić lepszą technologię rozpoznawania żywności w najbliższej przyszłości i pomóc nam prowadzić zdrowszy styl życia, a Instagaze jest coraz bliżej urzeczywistnienia tego.