Використання мультимодальних великих мовних моделей для цифрової криміналістики з метою виявлення військовослужбовців на зображеннях із мобільних пристроїв
Abstrak
Мета роботи: Дослідження проведено для оцінки можливості використання мультимодальних великих мовних моделей для виявлення військовослужбовців на зображеннях з мобільних пристроїв. Метою було з’ясувати, чи можуть ці моделі ефективно розрізняти реальних військових та манекенів у складних реалістичних умовах. Метод дослідження: Кількісні та експериментальні методи, зокрема застосування мультимодальних моделей штучного інтелекту (Google Gemini 1.5 Pro та LLAVA) для генерації описів та класифікації зображень, а також структурованого аналізу даних з використанням статистичних метрик (точність, повнота та точність класифікації) для оцінки ефективності виявлення військовослужбовців. Дослідження проведено на вибірці з 436 зображень, що включає фото військових, манекенів у військовій формі та цивільних осіб, здобутих із резервної копії iOS. Результати дослідження: Обидві моделі показали високу точність у виявленні військових (точність = 1.0), повнота = 0.99 (Gemini) / 0.98 (LLAVA). Проте 88 з 99 манекенів були помилково класифіковані Gemini як військові, LLAVA — 86. Gemini значно перевищив LLAVA у виявленні країни (0.7875 проти 0.1218) та підрозділу (0.2544 проти 0.0051). Загальна точність: 0.768 (Gemini), 0.764 (LLAVA). Теоретична цінність дослідження: Дослідження розширює застосування мультимодальних великих мовних моделей у сфері цифрової криміналістики. Визначено межі існуючих моделей у розпізнаванні реальних людей та манекенів, що вимагає перегляду підходів до семантичного аналізу зображень. Практична цінність дослідження: Мультимодальні великі мовні моделі можуть бути ефективними інструментами допомоги судовим експертам при первинному аналізі великих масивів зображень. Забезпечують прискорене виявлення потенційно релевантних зображень у цифрових розслідуваннях. Оригінальність: Перше дослідження, що цілеспрямовано аналізує ефективність мультимодальних великих мовних моделей для виявлення військовослужбовців на фото з мобільних пристроїв. Вперше проведено порівняльну оцінку Google Gemini 1.5 Pro та LLAVA у цьому контексті. Обмеження дослідження: Моделі не можуть ефективно відрізнити манекенів від справжніх людей. Проблеми при обробці зображень з низькою якістю, слабким освітленням чи незвичайними позами. Майбутні дослідження мають зосередитися на покращенні контекстного розуміння та підвищенні стійкості моделей до помилкової класифікації. Тип статті: Емпіричне дослідження.
Topik & Kata Kunci
Penulis (6)
Taras Fedynyshyn
Serhii Vysotskyi
Mariia Khomik
Oleksandr Hymza
Anastasia Vasylytsia
Bohdan Harasymchuk
Format Sitasi
Akses Cepat
- Tahun Terbit
- 2025
- Sumber Database
- DOAJ
- DOI
- 10.33445/sds.2025.15.2.15
- Akses
- Open Access ✓