iLenta Меню

Samsung випустила власний інструмент для оцінки штучного інтелекту

26 вересня 2025, 08:09 | Roter [425]
Samsung була змушена випустити власний бенчмарк після того, як виявила недоліки в інструментах для оцінки роботи штучного інтелекту.
Samsung випустила власний інструмент для оцінки штучного інтелекту

Компанія стала першим брендом, який запровадив цілий комплекс AI-функцій у смартфони. З того часу Samsung регулярно оновлює та розширює їх можливості приблизно раз на півроку. Тепер компанія представила власний інструмент для вимірювання продуктивності ШІ — Trustworthy Real-world Usage Evaluation Benchmark (TRUEBench).

TRUEBench розроблено підрозділом Samsung Research як фірмовий тестовий комплекс. Необхідність у ньому виникла через обмеження існуючих бенчмарків, які в основному орієнтовані лише на англійську мову та одноразові формати «питання-відповідь».

На відміну від них, TRUEBench включає більш різноманітні діалогові сценарії та підтримує багатомовні умови. Він створений на основі практичного досвіду використання ШІ для підвищення продуктивності та оцінює його роботу за десятьма найбільш затребуваними завданнями — таким як генерація контенту, аналіз даних, реферативний виклад текстів та переклад.

Всього в TRUEBench передбачено 2485 тестів, поділених на 10 категорій, 46 підкатегорій та 12 мов. Діапазон завдань охоплює як короткі тексти з кількох символів, і документи обсягом понад 20 000 символів — від елементарних операцій до складного підсумовування великих матеріалів.

Система оцінки в TRUEBench вважається надійною: вона заснована на автоматизованому алгоритмі, який був розроблений та відточений у співпраці людини та ШІ. Датасети та таблиці результатів розміщені на відкритій платформі Hugging Face, де можна протестувати до п'яти моделей ШІ та порівняти їх продуктивність та ефективність.

Джерело: sammobile

© 2012-2025 iLenta. Всі права захищені.
Повна версія

AI

Google показала інноваційний браузер Disco
Google показала інноваційний браузер Disco
12 грудня 2025, 15:07 | Roter
Запит про поїздку він здатний перетворити на повноцінний планувальник.
Докладніше...
 
Режим «для дорослих» з'явиться в ChatGPT у першому кварталі 2026 року
Режим «для дорослих» з
12 грудня 2025, 13:06 | Roter
Спочатку OpenAI оптимізує систему автоматичного визначення віку користувачів ChatGPT.
Докладніше...
 
У ChatGPT вбудували Photoshop та Acrobat для редагування фото та PDF
У ChatGPT вбудували Photoshop та Acrobat для редагування фото та PDF
11 грудня 2025, 13:08 | Roter
Інтеграції доступні вже зараз майже на всіх платформах.
Докладніше...
 
ChatGPT допоміг підлітку зламати мережу інтернет-кафе
ChatGPT допоміг підлітку зламати мережу інтернет-кафе
08 грудня 2025, 22:08 | Roter
У Японії затримали 17-річного підлітка з Осаки за підозрою у зламі мережі інтернет-кафе.
Докладніше...
 
У платних тарифах ChatGPT з'явилася реклама
У платних тарифах ChatGPT з
08 грудня 2025, 21:07 | Roter
У соцмережі X почали з'являтися скарги на роботу ChatGPT — навіть при оформленні платної підписки Plus користувачі почали бачити рекламні оголошення в діалогах з AI.
Докладніше...
 
Сторінки: 1 2 3 4 5 6
Повна версія
 
© 2012-2025 iLenta. All rights reserved.