iLenta Меню

Samsung випустила власний інструмент для оцінки штучного інтелекту

26 вересня 2025, 08:09 | Roter [339]
Samsung була змушена випустити власний бенчмарк після того, як виявила недоліки в інструментах для оцінки роботи штучного інтелекту.
Samsung випустила власний інструмент для оцінки штучного інтелекту

Компанія стала першим брендом, який запровадив цілий комплекс AI-функцій у смартфони. З того часу Samsung регулярно оновлює та розширює їх можливості приблизно раз на півроку. Тепер компанія представила власний інструмент для вимірювання продуктивності ШІ — Trustworthy Real-world Usage Evaluation Benchmark (TRUEBench).

TRUEBench розроблено підрозділом Samsung Research як фірмовий тестовий комплекс. Необхідність у ньому виникла через обмеження існуючих бенчмарків, які в основному орієнтовані лише на англійську мову та одноразові формати «питання-відповідь».

На відміну від них, TRUEBench включає більш різноманітні діалогові сценарії та підтримує багатомовні умови. Він створений на основі практичного досвіду використання ШІ для підвищення продуктивності та оцінює його роботу за десятьма найбільш затребуваними завданнями — таким як генерація контенту, аналіз даних, реферативний виклад текстів та переклад.

Всього в TRUEBench передбачено 2485 тестів, поділених на 10 категорій, 46 підкатегорій та 12 мов. Діапазон завдань охоплює як короткі тексти з кількох символів, і документи обсягом понад 20 000 символів — від елементарних операцій до складного підсумовування великих матеріалів.

Система оцінки в TRUEBench вважається надійною: вона заснована на автоматизованому алгоритмі, який був розроблений та відточений у співпраці людини та ШІ. Датасети та таблиці результатів розміщені на відкритій платформі Hugging Face, де можна протестувати до п'яти моделей ШІ та порівняти їх продуктивність та ефективність.

Джерело: sammobile

© 2012-2025 iLenta. Всі права захищені.
Повна версія

AI

Microsoft представила Mico — нового віртуального помічника Copilot
Microsoft представила Mico — нового віртуального помічника Copilot
24 жовтня 2025, 22:07 | Roter
Поки що новий асистент доступний тільки в США, Великій Британії та Канаді.
Докладніше...
 
OpenAI придбала команду, яка стояла за створенням Apple Shortcuts
OpenAI придбала команду, яка стояла за створенням Apple Shortcuts
24 жовтня 2025, 16:07 | Bazelas
Розробники програми Sky приєднаються до компанії для розвитку інтеграції ChatGPT до macOS.
Докладніше...
 
OpenAI випустила браузер Atlas, інтегрований із ChatGPT
OpenAI випустила браузер Atlas, інтегрований із ChatGPT
22 жовтня 2025, 23:09 | Roter
Чутки підтвердилися — у OpenAI з'явився власний веб-браузер під назвою Atlas. Як і слід очікувати, він тісно інтегрований з ChatGPT.
Докладніше...
 
OpenAI може перетворити ChatGPT на повноцінний месенджер
OpenAI може перетворити ChatGPT на повноцінний месенджер
21 жовтня 2025, 16:06 | Roter
Схоже, OpenAI готує радикальне розширення можливостей ChatGPT — популярний чат-бот може отримати функції обміну повідомленнями між користувачами.
Докладніше...
 
Goldman Sachs спростовує появу бульбашки на ринку через розвиток ШI
Goldman Sachs спростовує появу бульбашки на ринку через розвиток ШI
21 жовтня 2025, 14:06 | Bazelas
Goldman Sachs відкинув побоювання щодо можливого міхура на ринку, викликаного стрімким зростанням інтересу до штучного інтелекту, заявивши, що бум ШІ знаходиться лише на ранньому етапі розвитку.
Докладніше...
 
Сторінки: 1 2 3 4 5 6
Повна версія
 
© 2012-2025 iLenta. All rights reserved.