Samsung випустила власний інструмент для оцінки штучного інтелекту

26 вересня 2025, 08:09 | Roter [540]

Samsung була змушена випустити власний бенчмарк після того, як виявила недоліки в інструментах для оцінки роботи штучного інтелекту.

Samsung випустила власний інструмент для оцінки штучного інтелекту

Компанія стала першим брендом, який запровадив цілий комплекс AI-функцій у смартфони. З того часу Samsung регулярно оновлює та розширює їх можливості приблизно раз на півроку. Тепер компанія представила власний інструмент для вимірювання продуктивності ШІ — Trustworthy Real-world Usage Evaluation Benchmark (TRUEBench).

TRUEBench розроблено підрозділом Samsung Research як фірмовий тестовий комплекс. Необхідність у ньому виникла через обмеження існуючих бенчмарків, які в основному орієнтовані лише на англійську мову та одноразові формати «питання-відповідь».

На відміну від них, TRUEBench включає більш різноманітні діалогові сценарії та підтримує багатомовні умови. Він створений на основі практичного досвіду використання ШІ для підвищення продуктивності та оцінює його роботу за десятьма найбільш затребуваними завданнями — таким як генерація контенту, аналіз даних, реферативний виклад текстів та переклад.

Всього в TRUEBench передбачено 2485 тестів, поділених на 10 категорій, 46 підкатегорій та 12 мов. Діапазон завдань охоплює як короткі тексти з кількох символів, і документи обсягом понад 20 000 символів — від елементарних операцій до складного підсумовування великих матеріалів.

Система оцінки в TRUEBench вважається надійною: вона заснована на автоматизованому алгоритмі, який був розроблений та відточений у співпраці людини та ШІ. Датасети та таблиці результатів розміщені на відкритій платформі Hugging Face, де можна протестувати до п'яти моделей ШІ та порівняти їх продуктивність та ефективність.

Джерело: sammobile

Теги:

Коментарі

Samsung випустила власний інструмент для оцінки штучного інтелекту

ОГЛЯДИ

Огляд магнітного повербанку UGREEN Uno Qi2 10000mAh

Огляд Ugreen Uno 2-в-1 Magnetic Wireless Charger 15W – компактна магнітна зарядка нового покоління

Огляд бездротових навушників Ugreen EchoBuds Magic із кольоровим сенсорним екраном на кейсі

Огляд універсального USB-хабу UGREEN Revodok Pro 210 10-in-1

НОВИНИ ТА ПОДІЇ

WhatsApp тестує індикатор онлайн-статусу із зеленою крапкою на iPhone

AnTuTu визначив найпотужніші смартфони середнього класу: хто очолив рейтинг у червні 2026 року

Найпотужніші Android-смартфони червня: AnTuTu опублікував новий рейтинг, і він майже повністю належить Snapdragon

Названо найпотужніші Android-планшети червня: флагмани Snapdragon залишили конкурентів далеко позаду

Casio представила спортивний годинник G-LIDE GBX-H5600KI-5: пульсометр, функції для серфінгу та сонячне заряджання

Xiaomi «відправила на пенсію» популярні смартфони та планшети: які моделі більше не отримуватимуть оновлення

ПРИСТРОЇ ТА АКСЕСУАРИ

Bang & Olufsen представила свій перший повербанк: преміальний дизайн, підтримка Qi2 і ціна 145 євро

Lenovo представила ігрову мишу Lecoo Bellator GM104 з металевим корпусом і частотою опитування 8000 Гц

Lenovo представила доступну механічну клавіатуру Lecoo Bellator GK101 з акумулятором на 8000 мА·год

Logitech представила ігрову клавіатуру G316 X 98 із частотою опитування 8000 Гц і змінними перемикачами

ІНСТРУКЦІЇ, ПОРАДИ ТА СЕКРЕТИ

Кілька порад щодо очищення забрудненого порту USB-C смартфона або планшета

Microsoft закриває Skype: як зберегти чати та файли

Apple розповіла, як виправити проблеми з динаміком у Apple Watch

Знайдено спосіб безкоштовно завантажувати платні програми Apple

Apple розповіла, як правильно сушити iPhone

Як не допустити вигорання екрана смартфона

КРИПТОВАЛЮТИ

Microsoft попередила про новий вірус для флешок, який непомітно викрадає криптовалюту

Жінку звинувачують у викраденні 2323 біткоїнів у чоловіка

Корейська податкова засвітила пароль від криптогаманця і втратила майже 5 мільйонів доларів

Акціонери компанії Трампа у лютому отримають нові токени