Samsung выпустила собственный инструмент для оценки искусственного интеллекта

Компания стала первым брендом, внедрившим целый комплекс AI-функций в смартфоны. С тех пор Samsung регулярно обновляет и расширяет их возможности примерно раз в полгода. Теперь компания представила собственный инструмент для измерения производительности ИИ — Trustworthy Real-world Usage Evaluation Benchmark (TRUEBench).
TRUEBench разработан подразделением Samsung Research как фирменный тестовый комплекс. Необходимость в нем возникла из-за ограничений существующих бенчмарков, которые в основном ориентированы только на английский язык и одноразовые форматы «вопрос-ответ».
В отличие от них, TRUEBench включает более разнообразные диалоговые сценарии и поддерживает многоязычные условия. Он создан на основе практического опыта использования ИИ для повышения продуктивности и оценивает его работу по десяти наиболее востребованным задачам — таким как генерация контента, анализ данных, реферативное изложение текстов и перевод.
Всего в TRUEBench предусмотрено 2485 тестов, разделенных на 10 категорий, 46 подкатегорий и 12 языков. Диапазон заданий охватывает как короткие тексты из нескольких символов, так и документы объемом свыше 20 000 символов — от элементарных операций до сложного суммирования больших материалов.
Система оценки в TRUEBench считается надежной: она основана на автоматизированном алгоритме, который был разработан и отточен в сотрудничестве человека и ИИ. Датасеты и таблицы результатов размещены на открытой платформе Hugging Face, где можно протестировать до пяти моделей ИИ и сравнить их производительность и эффективность.
Источник: sammobile
AI




