DOAJ Open Access 2025

Використання мультимодальних великих мовних моделей для цифрової криміналістики з метою виявлення військовослужбовців на зображеннях із мобільних пристроїв

Taras Fedynyshyn Serhii Vysotskyi Mariia Khomik Oleksandr Hymza Anastasia Vasylytsia +1 lainnya

Abstrak

Мета роботи: Дослідження проведено для оцінки можливості використання мультимодальних великих мовних моделей для виявлення військовослужбовців на зображеннях з мобільних пристроїв. Метою було з’ясувати, чи можуть ці моделі ефективно розрізняти реальних військових та манекенів у складних реалістичних умовах. Метод дослідження: Кількісні та експериментальні методи, зокрема застосування мультимодальних моделей штучного інтелекту (Google Gemini 1.5 Pro та LLAVA) для генерації описів та класифікації зображень, а також структурованого аналізу даних з використанням статистичних метрик (точність, повнота та точність класифікації) для оцінки ефективності виявлення військовослужбовців. Дослідження проведено на вибірці з 436 зображень, що включає фото військових, манекенів у військовій формі та цивільних осіб, здобутих із резервної копії iOS. Результати дослідження: Обидві моделі показали високу точність у виявленні військових (точність = 1.0), повнота = 0.99 (Gemini) / 0.98 (LLAVA). Проте 88 з 99 манекенів були помилково класифіковані Gemini як військові, LLAVA — 86. Gemini значно перевищив LLAVA у виявленні країни (0.7875 проти 0.1218) та підрозділу (0.2544 проти 0.0051). Загальна точність: 0.768 (Gemini), 0.764 (LLAVA). Теоретична цінність дослідження: Дослідження розширює застосування мультимодальних великих мовних моделей у сфері цифрової криміналістики. Визначено межі існуючих моделей у розпізнаванні реальних людей та манекенів, що вимагає перегляду підходів до семантичного аналізу зображень. Практична цінність дослідження: Мультимодальні великі мовні моделі можуть бути ефективними інструментами допомоги судовим експертам при первинному аналізі великих масивів зображень. Забезпечують прискорене виявлення потенційно релевантних зображень у цифрових розслідуваннях. Оригінальність: Перше дослідження, що цілеспрямовано аналізує ефективність мультимодальних великих мовних моделей для виявлення військовослужбовців на фото з мобільних пристроїв. Вперше проведено порівняльну оцінку Google Gemini 1.5 Pro та LLAVA у цьому контексті. Обмеження дослідження: Моделі не можуть ефективно відрізнити манекенів від справжніх людей. Проблеми при обробці зображень з низькою якістю, слабким освітленням чи незвичайними позами. Майбутні дослідження мають зосередитися на покращенні контекстного розуміння та підвищенні стійкості моделей до помилкової класифікації. Тип статті: Емпіричне дослідження.

Penulis (6)

T

Taras Fedynyshyn

S

Serhii Vysotskyi

M

Mariia Khomik

O

Oleksandr Hymza

A

Anastasia Vasylytsia

B

Bohdan Harasymchuk

Format Sitasi

Fedynyshyn, T., Vysotskyi, S., Khomik, M., Hymza, O., Vasylytsia, A., Harasymchuk, B. (2025). Використання мультимодальних великих мовних моделей для цифрової криміналістики з метою виявлення військовослужбовців на зображеннях із мобільних пристроїв. https://doi.org/10.33445/sds.2025.15.2.15

Akses Cepat

PDF tidak tersedia langsung

Cek di sumber asli →
Lihat di Sumber doi.org/10.33445/sds.2025.15.2.15
Informasi Jurnal
Tahun Terbit
2025
Sumber Database
DOAJ
DOI
10.33445/sds.2025.15.2.15
Akses
Open Access ✓