Компанія стала першим брендом, який запровадив цілий комплекс AI-функцій у смартфони. З того часу Samsung регулярно оновлює та розширює їх можливості приблизно раз на півроку. Тепер компанія представила власний інструмент для вимірювання продуктивності ШІ — Trustworthy Real-world Usage Evaluation Benchmark (TRUEBench).
TRUEBench розроблено підрозділом Samsung Research як фірмовий тестовий комплекс. Необхідність у ньому виникла через обмеження існуючих бенчмарків, які в основному орієнтовані лише на англійську мову та одноразові формати «питання-відповідь».
На відміну від них, TRUEBench включає більш різноманітні діалогові сценарії та підтримує багатомовні умови. Він створений на основі практичного досвіду використання ШІ для підвищення продуктивності та оцінює його роботу за десятьма найбільш затребуваними завданнями — таким як генерація контенту, аналіз даних, реферативний виклад текстів та переклад.

Всього в TRUEBench передбачено 2485 тестів, поділених на 10 категорій, 46 підкатегорій та 12 мов. Діапазон завдань охоплює як короткі тексти з кількох символів, і документи обсягом понад 20 000 символів — від елементарних операцій до складного підсумовування великих матеріалів.
Система оцінки в TRUEBench вважається надійною: вона заснована на автоматизованому алгоритмі, який був розроблений та відточений у співпраці людини та ШІ. Датасети та таблиці результатів розміщені на відкритій платформі Hugging Face, де можна протестувати до п'яти моделей ШІ та порівняти їх продуктивність та ефективність.
Джерело: sammobile
.png)

