Что такое gpu в компьютере и его температура: Как понизить температуру видеокарты, снизить температуру графического чипа GPU

Содержание

Как понизить температуру видеокарты, снизить температуру графического чипа GPU

В современном компьютере видеокарта является одним из основных потребителей энергии. Поэтому не удивительно, что ее система охлаждения может иногда подводить. В этом материале мы расскажем о том, как понизить температуру видеокарты, если она начала выходить за рамки нормы.

Проверка работы вентиляторов

Если у вас возникла необходимость понизить температуру видеокарты, то в первую очередь нужно проверить, как вращаются вентиляторы. Ведь если вентиляторы на видеокарте или корпусе компьютера не работают, то это обязательно будет приводить к повышению температур.

Для того чтобы проверить как работают вентиляторы вам необходимо снять левую стенку системного блока (если смотреть на компьютер с передней стороны). В большинстве случаев для снятия стенки системного блока нужно открутить два винта в задней части корпуса, после чего крышку нужно сдвинуть назад и снять.

После снятия стенки корпуса включите компьютер и понаблюдайте за работой вентиляторов на видеокарте и корпусе компьютера. Исправные вентиляторы должны вращаться плавно, без рывков и лишнего шума. Если какие-то вентиляторы не работают, то их нужно заменить. Также обратите внимание нет ли рядом с вентиляторами кабелей, которые могли бы блокировать их роботу.

Нужно отметить, что через некоторое время после запуска компьютера, если нет никакой нагрузки, вентиляторы могут снижать свои обороты или вовсе останавливаться. Это нормальное поведение системы. Если хотите посмотреть, как вентиляторы работают под нагрузкой просто запустите игру или стресс-тест видеокарты.

Чистка системы охлаждения видеокарты

Если вы проверили вентиляторы и с ними все в порядке, то следующее что нужно сделать, это почистить систему охлаждения видеокарты от пыли. Дело в том, что тепло от графического чипа видеокарты отводится через радиатор, который обдувается вентилятором.

И если радиатор будет забит пылью, то воздух от вентилятора не сможет нормально обдувать его ребра. В результате эффективность всей системы охлаждения сильно снижается.

Для того чтобы почистить видеокарту от пыли вам нужно выполнить следующие операции. Во-первых, компьютер нужно выключить и отключить от розетки. Дальше нужно снять боковую стенку системного блока, так как это описано выше, и отключить кабели дополнительного питания видеокарты.

После этого нужно открутить винты, которые фиксируют видеокарту в корпусе компьютера.

После чего нужно освободить фиксатор на материнской плате и аккуратно вытащить видеокарту из разъема PCI Express. Нужно отметить, что фиксатор на материнской плате может иметь различную конструкцию. На фото внизу показан один из видов такого фиксатора.

После снятия видеокарты, нужно аккуратно почистить ее радиатор от накопившейся пыли. Для этой цели безопасней всего использовать баллон со сжатым воздухом.

Установка дополнительных корпусных вентиляторов

Еще одним способом понижения температуры видеокарты является установка дополнительных корпусных вентиляторов. Если установить дополнительные вентиляторы, то это снизит температуру воздуха внутри корпуса компьютера, и как следствие понизится температура видеокарты.

При установке корпусных вентиляторов очень важно следить за тем, как воздух будет двигаться внутри компьютера. Для организации максимально эффективного охлаждения прохладный воздух должен всасываться через переднюю, нижнюю и боковую стенки корпуса, а горячий воздух должен выбрасываться через верхнюю и заднюю стенку корпуса.

Если стоит задача понизить температуру видеокарты, то оптимальным вариантом будет установка дополнительного вентилятора на вдув на нижнюю стенку корпуса. В этом случае поток прохладного воздуха будет попадать прямо на видеокарту. Также можно установить вентилятор на боковую крышку корпуса.

При организации охлаждения компьютерного корпуса нельзя забывать о вентиляторах на выдув. В корпусе должен быть хотя бы один вентилятор, который будет работать на выдув и выбрасывать нагретый воздух наружу.

Замена термопасты на графическом чипе

Самым радикальным способом понизить температуру видеокарты является замена термопасты на графическом чипе. Этот способ достаточно сложный и немного рискованный, поэтому прибегать к нему нужно только в том случае если все описанное выше не помогает.

Для того чтобы заменить термопасту на графическом чипе нужно снять видеокарту, открутить несколько винтов на обратной стороне и демонтировать систему охлаждения. Количество винтов зависит от модели видеокарты. На простых моделях система охлаждения может фиксироваться только 4 винтами, на более продвинутых моделях винтов может быть больше.

После снятия системы охлаждения, нужно очистить графический чип и радиатор от старой термопасты. Для этого удобно использовать резинку для карандашей. Если термопаста сильно засохла, то можно капнуть немного спирта. После очистки нужно нанести новую термопасту и установить систему охлаждения видеокарты.

Снижение уровня потребления

Если вы проделали все вышеописанное, но температура все равно слишком высокая, то вы можете снизить нагрев уменьшив потребление энергии видеокартой.

Данный способ работает очень хорошо, но он приводит к снижению производительности. Поэтому его стоит использовать только в крайнем случае, когда все остальные способы уже испробованы.

Для того чтобы снизить потребление энергии видеокартой вам пондобится программа MSI Afterburner. Более подробно об этой программе вы можете почитить в нашей статье о разгоне видеокарт.

Итак, чтобы снизить температуру видеокарты с помощью MSI Afterburner запустите данную программу на своем компьютере и нажмите на стрелку, которая находится рядом с параметром «Power Limit«.

После этого появится дополнительный параметр — «Temp Limit«. С его помощью можно установить максимальную температуру, до которой может прогреваться видеокарта, перед тем как начнется снижение тактовых частот. Для последних моделей от NVIDIA максимальная температура составляет 83 градуса, но вы можете установить»Temp Limit» на 75 или любое другое значение.

После изменения максимальной температуры нужно нажать на кнопку «Apply» и включить опцию «Apply overclocking at system statup» для того чтобы эти настройки применялись при каждом запуске компьютера.

После внесения этих настроек температура видеокарты больше не будет подниматься выше значения, которое указанно в MSI Afterburner. Но, за это прийдется расплачиваться некоторой потерей производительности, так как при достижении максимальной температуры графический процессор начнет снижать тактовые частоты.

Сохраните статью:

Посмотрите также:

Как узнать температуру видеокарты, посмотреть температуру

Видеокарта – один из самых горячих компонентов современного компьютера. Во многих случаях видеокарта выделяет больше тепла чем центральный процессор и, соответственно, требует более эффективного охлаждения. Если же видеокарта охлаждается плохо, то это может привести к снижению ее производительности, нестабильной работе компьютера и серьезной поломке.

Для того чтобы подобные проблемы не возникли нужно время от времени проверять температуру видеокарты. Так вы вовремя заметите, что температура вышла за рамки нормы и сможете предпринять соответствующие меры.

Программы для просмотра температуры видеокарты

Чтобы узнать температуру видеокарты вам понадобится специальная программа. Сейчас таких программ достаточно много и описать их в рамках одной статьи будет невозможно. Поэтому мы рассмотрим только несколько наиболее популярных бесплатных программы и дадим ссылки на официальные сайты, где их можно будет скачать.

GPU-Z (официальный сайт) — это бесплатная программа для просмотра характеристик и параметров видеокарты. С ее помощью вы сможете узнать точную модель видеокарты, которая установлена в вашем компьютере, а также все ее характеристики. Кроме этого GPU-Z позволяет наблюдать за текущим состоянием видеокарты, в частности проверять ее температуру,  уровень загрузки, скорость вращения кулеров и т.д.

Интерфейс программы GPU-Z состоит из нескольких вкладок. Самыми полезными являются первые две вкладки: «Graphics Card» и «Sensors». На вкладке «Graphics Card» размещена вся информация об видеокарте, начиная от ее названия и заканчивая версией BIOS, с которой она работает.

Вторая вкладка называется «Sensors». Здесь можно посмотреть значения множества параметров, которые постоянно снимаются с видеокарты. Среди прочего, здесь можно узнать и температуру видеокарты, этот параметр называется «GPU Temperature». При необходимости, с помощью программы GPU-Z можно получать информацию сразу с нескольких видеокарт. Для этого в нижней части окна GPU-Z есть выпадающий список, с помощью которого можно выбрать ту видеокарту, информация о которой вам нужна в данный момент.

HWMonitor (официальный сайт) — бесплатная программа для наблюдения за текущим состоянием компьютера. С помощью данной программы вы можете быстро узнать температуру видеокарты, процессора, жесткого диска, материнской платы и других компонентов компьютера. Кроме этого HWMonitor отображает информацию о текущем уровне нагрузки, скорости вращения кулеров, напряжениях и т.д.

Работать с программой HWMonitor очень просто. Достаточно запустить ее на своем компьютере и через несколько секунд вы увидите список устройств, напротив которых будут указаны их текущие параметры.

Найдите название вашей видеокарты в списке устройств и вы сразу увидите ее температуру.

Одной из особенностей HWMonitor является то, что она отображает параметры в трех колонках: Value (текущее значение), Min (минимальное значение) и Max (максимальное значение). Используя информацию из колонки Max можно узнать максимальную температуру на протяжении того времени, что программа была запущена.

Hwinfo (официальный сайт) – продвинутая программа для сбора информации о компьютере. С помощью данной программы можно узнать практически все о конфигурации компьютера и его текущем состоянии. Для того чтобы узнать температуру видеокарты и других компонентов компьютера нужно запустить эту программу и нажать на кнопку«Sensors» на панели инструментов.

После этого откроется окно со списком всех параметров, информация о которых доступна программе. Здесь можно наблюдать за температурой видеокарты, процессора, материнской платы. Кроме информации о температурах здесь есть и другие данные. Например, уровень нагрузки, тактовые частоты, напряжения и т.д.

Одной из полезных функций программы HWinfo является возможность наблюдения за параметрами с помощью специальной иконки на панели задач. Для этого нужно выбрать один из параметров, кликнуть по нему правой кнопкой мышки и выбрать вариант «Add to tray». Используя эту функцию, вы сможете узнать температуру видеокарты в любой момент времени, поскольку она всегда будет отображаться на панели задач, рядом с системными часами.

Если описанные выше программы вам не понравились, то можете посмотреть GPU Temp, Speccy, MSI Afterburner, FPS monitor.

Какую температуру видеокарты можно считать нормальной

После проверки температуры видеокарты, многие пользователи интересуются, какая температура может считаться нормальной, а какая уже нет. К сожалению, однозначного ответа на этот вопрос нет, так как разные графические процессоры рассчитаны на разную температуру.

В качестве ориентировочных можно использовать следующие значения: 55 °C в режиме простоя и 80 °C под нагрузкой. Если температура вашей видеокарты сильно превышает эти значения, то это можно считать перегревом.

В такой ситуации стоит задуматься о том, как привести температуру видеокарты в рамки нормы. Первое, с чего нужно начать, это чистка системы охлаждения видеокарты. Для этого можно просто продуть радиатор видеокарты с помощью сжатого воздуха. Это простая и безопасная процедура, которая удалит большую часть пыли и поможет выиграть 5-10 градусов.

Если этого недостаточно, то нужно заменить термопасту на графическом чипе видеокарты. Замена термопасты – задача посложнее. Для этого нужно полностью демонтировать систему охлаждения видеокарты, удалить остатки старой термопасты, нанести новую термопасту и установить систему охлаждения обратно. Выполнять эту работу нужно максимально аккуратно, поскольку есть риск сколоть кристалл графического чипа.

Если же и это не помогает нормализовать температуру, то возможно проблема в охлаждении самого корпуса. Попробуйте установить дополнительные кулеры на вдув и выдув воздуха. Установите кулеры таким образом, чтобы видеокарта получала максимум прохладного воздуха из внешней среды.

Сохраните статью:

Посмотрите также:

Как отобразить температуру и загрузку процессора и видеокарты в играх | Видеокарты | Блог

Как провести мониторинг производительности и получить нужные данные? Будь то разгон видеокарты или выявление «слабого» звена комплектующих, нам потребуется наглядная информация непосредственно в играх. В этом поможет информационный оверлей, который предоставляет MSI Afterburner.

MSI Afterburner — бесплатное приложение, которое не требует какой-либо регистрации на сторонних ресурсах. 

Оверлей представляет из себя график с данными в углу экрана:

Установка и настройки

Скачиваем программу с официального ресурса. В процессе установки нам предложат установить еще одну программу — Rivatuner Statics Server, даем согласие и завершаем установку. После окончания процесса перед нами появится главное окно программы. Кликнув на значок в виде шестеренки, переходим в меню.

Нужные нам параметры находятся во вкладке «Мониторинг». Здесь расположено множество данных для отслеживания. Для включения конкретного пункта в оверлей ставим галочку напротив пункта и параметра «Показывать в ОЭД». Также можно выделить несколько пунктов разом зажав клавишу Shift. Для сохранения настроек нажимаем кнопку «Ок» и заходим в игру.

В левой части экрана появился наш информационный оверлей. Он предоставляет исчерпывающую информацию о состоянии комплектующих. Но в таком виде он выглядит громоздким и может мешать непосредственно процессу игры.

Вернемся на вкладку «Мониторинг» и оставим лишь самые основные пункты, которые нам понадобятся, а именно:

Пункты в мониторинге Отображение во внутриигровом оверлее Назначение
Температура ГП GPU Температура видеокарты в °C
Загрузка ГП В строке GPU Процент загрузки видеокарты
Загрузка памяти MEM Количество мегабайт видеопамяти используемой видеокартой
Температура ЦП CPU Температура процессора в °C
Загрузка ЦП В строке CPU Процент загрузки процессора
Загрузка ОЗУ RAM Количество мегабайт оперативной памяти используемой в данный момент
Частота кадров D3D11 Количество кадров в секунду

С учетом изменений оверлей примет следующий вид:

Он стал лаконичнее, но при конкретном разрешении «картинки» в 2К — все же мелковат. Далее нам потребуется более точечная настройка.

Тонкая настройка

Чем выше разрешение у игры, тем мельче будет отображаемый текст в оверлее при стандартных настройках. Для увеличения шрифта нам нужно воспользоваться озвученной ранее программой RivaTuner Statistics Server. Войти в нее можно через настройки основной программы «Свойства ->ОЭД->Дополнительно» или же кликнув по соответствующему значку в трее.

В открывшемся окне находим ползунок «On-Screen Display zoom» и двигаем его. Размер шрифта будет меняться, а изменения будут отображаться в миниатюрном окне ниже.

Вид в игре:

Кроме увеличения шрифта в данной программе имеется ряд интересных настроек. Например, «On-Screen Display palette», щелкнув по которой мы попадаем в меню настроек цвета.

Если вас не устраивает стандартная позиция оверлея в верхнем левом углу, ее можно сменить. Под миниатюрным окном в RivaTuner Statistics Server имеются стрелочки для регулировки, позиция меняется кликом стрелки или заданием числа в графу.

Поместить оверлей можно в любом удобном месте:

Стиль текста можно подстроить во вкладке «On-Screen Display rendering mode». Для вызова более широких настроек потребуется зайти во вкладку мониторинга, нажать по значку «…», после чего откроется окно с множеством регулировок.

На выбор предоставляются готовые стили:

  • Классика
  • Модерн
  • Модерн моно
  • Модерн веб

Можно изменить цвет и размер каждого элемента, подстроить отступы и разделители.

Заключительный этап — настройка отображаемого в игре текста. Выбираем нужный пункт во вкладке «Мониторинг», ставим флажок у параметра «Переопределить имя группы» и вносим новое название. Поддерживается только английский язык.

Если вы хотите отобразить некоторые данные в одну строку, то вам потребуется задать одинаковое имя для этих данных. Например, для отображения видеопамяти в одной строке с загрузкой и температурой видеокарты, нужно задать имя «GPU» вместо стандартного «MEM».

После всех манипуляций оверлей принял следующий вид:

Но вам никто не помешает подстроить его под свой собственный вкус. Благо настроек тут масса и ограничивающим фактором является лишь ваша фантазия и время.

Напоследок демонстрационный видеоролик работы оверлея в нескольких игровых проектах:

Выводы

Мы наглядно убедились в том, что произвести мониторинг состояния комплектующих совсем не сложно. MSI Afterburner обладает интуитивно понятным интерфейсом и большим количеством настроек — определить неисправность или «узкое» место ПК не составит труда.

Одной из самых распространенных проблем является перегрев компонентов, а именно — видеокарты. Температуры выше 75 °C должны насторожить, признаком перегрева выступают вылеты из игры. Побороть нагрев можно несколькими способами:

  • Обеспечить хорошую вентиляцию в корпусе (установка приточных и вытяжных вентиляторов, замена корпуса на модель с сеткой спереди при особо горячих версиях видеокарты).
  • Настройка оборотов вентиляторов видеокарты (доступна в MSI Afterburner — опция Fan Speed).
  • Чистка от пыли и замена термопасты.

Не стоит сбрасывать со счетов вирусы-майнеры. Обнаружить их можно запустив нетребовательную игру. При наличии вируса потребление мощностей карты будет несоизмеримо реальной нагрузке. Выход: тестирование ПК антивирусом и последующая очистка от «вредных» файлов.

Наряду с видеокартами перегреву подвержены также процессоры. Критическими температурами являются 90–100 °C в зависимости от модели. В случае перегрева процессора, методы борьбы с нагревом видеокарты также применимы и к ним. Еще одним решением выступит покупка более массивного кулера или системы жидкостного охлаждения.

Немаловажным пунктом является количество оперативной памяти. Современные игры достаточно требовательны к объему памяти и при ее недостатке возможны фризы и вылеты. При обнаружении таких проблем, стоит ограничить параллельный запуск программ и игр. Если же и это не помогает избавиться от фризов, то стоит рассмотреть покупку более емкой планки памяти.

Какая должна быть нормальная температура видеокарты

Графическая карта — самый загруженный компонент внутри вашего компьютера, когда дело касается игр. Он обрабатывает миллионы инструкций, выполняющих различные операции во время игр, и из-за этого она нагреваться. Подобно процессору, может произойти перегрев графического процессора на графической карте, что может привести к множеству проблем, в том числе к сбою видеокарты. В графической карте GPU является основным компонентом, в котором может произойти перегрев. Память графической карты также может нагреваться, но она не выходит за пределы уровня опасности. Перегрев может привести к снижению срока службы графического процессора, а также может привести к немедленному повреждению графической карты.

Какая температура видеокарты считается нормальной

Ответ на этот вопрос зависеть как и от производителя так и от конкретной модели видеокарты, но в целом что-то выше 80 градусов по Цельсию является признаком беспокойства. Если температура графической карты GPU превышает 80 °C, вы должны принять соответствующие меры, чтобы снизить ее, предпочтительно, в диапазоне 70 °C — 75 °C или ниже.

Если у вас возникли проблемы с производительностью вашего компьютера, особенно при редактировании видео, обработке видео или при воспроизведении видео начинает заикаться, тормозить, зависать, то первое что нужно будет вам сделать, это проверить температуру видеокарты и сравнить ее с показаниями таблицы ниже.

Допустимая температура видеокарты NVIDIA

ВидеокартыТемпература ПростояДопустимая ТемператураМаксимальная Температура
GeForce GTX 1080 Ti4255-8091
GeForce GTX 10804260-8494
GeForce GTX 1070418394
GeForce GTX 10603855-7594
GeForce GTX 1050 Ti3555-8097
GeForce GTX 10503555-8097
GeForce GT 10303565-8297
GeForce GTX TITAN X428391
GeForce GTX TITAN (Z,Black)418195
GeForce GTX 980 Ti428592
GeForce GTX 980428198
GeForce GTX 970447398
GeForce GTX 9603750-7898
GeForce GTX 95030-357595
GeForce GTX 780 Ti428395
GeForce GTX 780438395
GeForce GTX 7703660-7798
GeForce GTX 760368297
GeForce GTX 750 Ti3355-7095
GeForce GTX 750337695
GeForce GTX 690347798
GeForce GTX 680378098
GeForce GTX 6703655-8097
GeForce GTX 660 Ti347897
GeForce GTX 660326397
GeForce GTX 650 Ti Boost386997
GeForce GTX 650356698
GeForce GTX 64597
GeForce GT 6403475102
GeForce GT 630357598
GeForce GT 62098
GeForce GTX 590378197
GeForce GTX 580428197
GeForce GTX 570448197
GeForce GTX 560 Ti337699
GeForce GTX 560347699
GeForce GTX 550 Ti3667100
GeForce GT 5203775102
GeForce GTX 4804496105
GeForce GTX 47030-4092105
GeForce GTX 46590105
GeForce GTX 4603065-80104
GeForce GTS 45065-80100
NVIDIA TITAN Xp8094
NVIDIA TITAN X 8094

Меры по снижению температуры графического процессора

Вот все возможные меры, которые вы можете принять, чтобы понизить температуру видеокарты GPU.

Выключить разгон GPU

Если у вас есть разгон на вашей видеокарте, то вы должны вернуть GPU к оригинальным настройкам, чтобы предотвратить его от повышения температуры GPU. Если вы планируете снова сделать разгон, то вы должны убедиться, что карта останется при безопасном температурном диапазоне в будущем. Ниже вы можете прочитать, как предотвратить перегрев карты.

Чистый вентилятор и радиатор

Пыль может разместиться на радиаторе и вентиляторе, тем самым снижая их производительность и эффективность. Откройте корпус ПК, а затем извлеките видеокарту. После этого с помощью небольшой кисти и пылесоса тщательно снимите пыль с видеокарты. Поставьте видеокарту еще раз, а затем контролировать температуру с помощью инструментов мониторинга GPU.

Смена Термопасты

Возможно, термопаста между графическим процессором и теплоотводом высохла и растрескалась и тем самым утратила свою эффективность. Вам придется снять вентилятор и радиатор, и убрать остатки старой термопасты, и аккуратно нанести новую термопасту. Читайте более подробно, как правильно заменить термопасту здесь.

Неисправный вентилятор

Если вентилятор видеокарты не исправен или возможно он вращается очень медленно, то это может быть связанно с повышением температуры GPU. Здесь единственное, что вы можете сделать, это заменить неисправный вентилятор видеокарты на новый или попытаться его смазать.

Установить более производительную систему охлаждения

Вы также можете установить хороший более производительный сторонний Aftermarket GPU кулер на вашу видеокарту. А если вы думаете, что фондовый кулер / радиатор вентилятора (HSF) не достаточно хорошо справляются, то вы можете установить систему водяного охлаждения для карточки для того чтобы сбить температуру GPU.

Примечание: Aftermarket Кулеры работает только с эталонными видеокартами или с видеокартами имеющие стандартный размер печатной платы.

Увеличить поток воздуха внутри корпуса ПК

Неправильный или плохой воздушный поток внутри корпуса компьютера также может привести к повышению температуры видеокарты. Для улучшения воздушного потока внутри корпуса ПК вы можете установить дополнительные вытяжные вентиляторы.

ЖелезоНеисправности компьютераНеисправноти

Что такое GPU в компьютере и его температура

На материнской плате, самым главным компонентом является центральный процессор( CPU – Central Processor Unit). Процессор называется главным потому что он управляет всеми подсистемами, с помощью системы шин и чипсета. Многие не знают что это такое GPU и какая нормальная его температура в компьютере.

Что значит gpu в компьютере

Многие сталкиваются с фразой GPU в компьютере и не знают что это значит. Давайте же разберемся. Например, подсистема которая выводит изображение на экраны монитора, называется видеосистемой. Видеосистема интегрируется в специальный слот для видеокарты на материнской плате. Слоты расширения бывают AGP и PCI Express. Видеокарта, это такое инженерное решение. Дополнительная плата, в которой имеется собственный процессор и оперативная память. Процессор на видеокарте как раз таки называется GPU.

Вот несколько причин, по которым процессор на видеокарте называется GPU:

  1. Чтобы знать что это процессор
  2. Что он является не центральным процессором, а подчиненный для CPU
  3. То что он служит для обработки отдельной информации, то есть для графики.

Так как обработка графики- это особая специализация процесса, то и процессор(CPU) является специализированным для обработки этих данных. Из этого можно сделать вывод, что GPU это специализированный процессор. Логически специализация выражается отделением GPU от CPU, физически – тем, что GPU устроено совсем по другому.

Такое строение GPU применяется потому что процессору нужно выполнять тысячи задач, которые связаны с отрисовкой. Когда центральный процессор, занят только обработкой данных, а это долгие и последовательные задачи.

Так же современные центральные процессоры(CPU), могу совмещать в себе и графический процессор(GPU).

Такое совмещение процессоров позволяет обойтись без внешней видеокарты, так как видеокарта имеется встроенная. В таком случае энергопотребление значительно снижается от 30% до 180%. А цена на такой процессор возрастает не более чем на 20%

Но есть и минусы такого решения. А именно малая производительность. Такое решение больше подойдет для офисных  компьютеров, где работа происходит с документами базами данных. На встроенной видеокарте не запустить тяжелую игру, а фотошоп будет слегка подтормаживать и раздражать. А если попробовать запустить автокад, то компьютер и вовсе может намертво зависнуть.

Как узнать GPU в компьютере

Многие пользователи думают что GPU это видеокарта, но на самом деле это только процессор видеокарты. В некоторых случаях нужно знать какая видеокарта установлена, а именно:

  • для поиска нужного драйвера
  • для проверки совместимости с каким либо приложением или игрой
  • Ну и чтобы похвастаться, что у вас крутая видюха

Если драйвера видеокарты уже установлены, то самый быстры и простой способ узнать модель видеокарты, это через диспетчер устройств, в разделе видеоадаптеры.

Если же драйвера видеокарты не были установлены, то вместо модели вы увидите неопознанные устройства, как на рисунке ниже:

Чтобы неизвестное устройство определилось, нужно установить драйвер. Как установить драйвер видеокарты мы писали в предыдущей статье.

Если же нет возможности установить драйвер, то определить видеокарту можно с помощью программы CPU-Z. Запускаем программу и переключаемся на вкладку «Графика», если же у вас программа на английском языке, то вкладка «Graphics»

А дальше все понятно. В строке «Название видеокарты» указана модель. Немного ниже можно увидеть объем видеопамяти.

Какая рабочая температура gpu

Нормальная рабочая температура процессора GPU должна быть примерно 70-75 градусов. Это примерное значение, рабочая температура зависит от само видеокарты, на какие тепловые нагрузки она рассчитана, какое охлаждение на ней установлено.

Ниже вы можете увидеть таблицу с допустимой температурой видеокарт от Nvidia

Видеокарты Температура Простоя Допустимая Температура Максимальная Температура
GeForce GTX 1080 Ti 42 55-80 91
GeForce GTX 1080 42 60-84 94
GeForce GTX 1070 41 83 94
GeForce GTX 1060 38 55-75 94
GeForce GTX 1050 Ti 35 55-80 97
GeForce GTX 1050 35 55-80 97
GeForce GT 1030 35 65-82 97
GeForce GTX TITAN X 42 83 91
GeForce GTX TITAN (Z,Black) 41 81 95
GeForce GTX 980 Ti 42 85 92
GeForce GTX 980 42 81 98
GeForce GTX 970 44 73 98
GeForce GTX 960 37 50-78 98
GeForce GTX 950 30-35 75 95
GeForce GTX 780 Ti 42 83 95
GeForce GTX 780 43 83 95
GeForce GTX 770 36 60-77 98
GeForce GTX 760 36 82 97
GeForce GTX 750 Ti 33 55-70 95
GeForce GTX 750 33 76 95
GeForce GTX 690 34 77 98
GeForce GTX 680 37 80 98
GeForce GTX 670 36 55-80 97
GeForce GTX 660 Ti 34 78 97
GeForce GTX 660 32 63 97
GeForce GTX 650 Ti Boost 38 69 97
GeForce GTX 650 35 66 98
GeForce GTX 645 97
GeForce GT 640 34 75 102
GeForce GT 630 35 75 98
GeForce GT 620 98
GeForce GTX 590 37 81 97
GeForce GTX 580 42 81 97
GeForce GTX 570 44 81 97
GeForce GTX 560 Ti 33 76 99
GeForce GTX 560 34 76 99
GeForce GTX 550 Ti 36 67 100
GeForce GT 520 37 75 102
GeForce GTX 480 44 96 105
GeForce GTX 470 30-40 92 105
GeForce GTX 465 90 105
GeForce GTX 460 30 65-80 104
GeForce GTS 450 65-80 100
NVIDIA TITAN Xp 80 94
NVIDIA TITAN X 80 94

Графический процессор — Википедия

Графический процессор (англ. graphics processing unit, GPU) — отдельное устройство персонального компьютера или игровой приставки, выполняющее графический рендеринг; в начале 2000-х годов графические процессоры стали массово применяться и в других устройствах: планшетные компьютеры, встраиваемые системы, цифровые телевизоры.

Блок-схема графического процессора

Современные графические процессоры очень эффективно обрабатывают и отображают компьютерную графику, благодаря специализированной конвейерной архитектуре они намного эффективнее в обработке графической информации, чем типичный центральный процессор.

Графический процессор в современных видеокартах (видеоадаптерах) применяется в качестве ускорителя трёхмерной графики.

Может применяться как в составе дискретной видеокарты, так и в интегрированных решениях (встроенных в северный мост либо в гибридный процессор).

Отличительными особенностями по сравнению с ЦП являются:

Высокая вычислительная мощность GPU объясняется особенностями архитектуры. Современные CPU содержат небольшое количество ядер, тогда как графический процессор изначально создавался как многопоточная структура с множеством ядер. Разница в архитектуре обусловливает и разницу в принципах работы. Если архитектура CPU предполагает последовательную обработку информации, то GPU исторически предназначался для обработки компьютерной графики, поэтому рассчитан на массивно параллельные вычисления[1].

Каждая из этих двух архитектур имеет свои достоинства. CPU лучше работает с последовательными задачами. При большом объёме обрабатываемой информации очевидное преимущество имеет GPU. Условие только одно — в задаче должен наблюдаться параллелизм.

 Графические процессоры уже достигли той точки развития, когда многие практические вычислительные задачи могут с лёгкостью решаться с их помощью, причём быстрее, чем на многоядерных системах. Будущие вычислительные архитектуры станут гибридными системами с графическими процессорами, состоящими из параллельных ядер и работающими в связке с многоядерными ЦП[2]

Оригинальный текст (англ.)

GPUs have evolved to the point where many real-world applications are easily implemented on them and run significantly faster than on multi-core systems. Future computing architectures will be hybrid systems with parallel-core GPUs working in tandem with multi-core CPUs[3]. Профессор Джек Донгарра (Jack Dongarra), Директор Инновационной вычислительной лаборатории Университета штата Теннесси, 2011
 

Современные модели графических процессоров (в составе видеоадаптера) могут полноценно применяться для общих вычислений (см. GPGPU). Примерами таковых могут служить чипы 5700XT (от AMD) или GTX 1660 Super (от nVidia).

Внешний графический процессор (eGPU)Править

Внешний графический процессор — это графический процессор, расположенный за пределами корпуса компьютера. Внешние графические процессоры иногда используются совместно с портативными компьютерами. Ноутбуки могут иметь большой объём оперативной памяти (RAM) и достаточно мощный центральный процессор (CPU), но часто им не хватает мощного графического процессора, вместо которого используется менее мощный, но более энергоэффективный встроенный графический чип. Встроенные графические чипы обычно недостаточно мощны для воспроизведения новейших игр или для других графически интенсивных задач, таких как редактирование видео.

Поэтому желательно иметь возможность подключать графический процессор к некоторой внешней шине ноутбука. PCI Express — единственная шина, обычно используемая для этой цели. Порт может представлять собой, к примеру, порт ExpressCard или mPCIe (PCIe × 1, до 5 или 2,5 Гбит / с соответственно) или порт Thunderbolt 1, 2 или 3 (PCIe × 4, до 10, 20 или 40 Гбит / с соответственно). Эти порты доступны только для некоторых ноутбуков.[4][5]

Внешние GPU не пользовались большой официальной поддержкой поставщиков. Однако это не остановило энтузиастов от внедрения настроек eGPU.

Программное обеспечениеПравить

На программном уровне видеопроцессор для своей организации вычислений (расчётов трёхмерной графики) использует тот или иной интерфейс прикладного программирования (API).

Самые первые ускорители использовали Glide — API для трёхмерной графики, разработанный 3dfx Interactive для видеокарт на основе собственных графических процессоров Voodoo Graphics.

Поколения ускорителей в видеокартах можно считать по версиям DirectX и OpenGL, которую они поддерживают.

См. также: видеодрайвер.

AMD
NVIDIA

Рабочие температуры ПК: насколько жарко становится слишком жарко?

Вы беспокоитесь о температуре вашего компьютера? Чрезмерный нагрев может повлиять на производительность вашего устройства и срок службы жесткого диска.

Но как узнать, перегревается он или просто жарко? Какова хорошая температура для вашего центрального процессора (ЦП)? И на какие признаки следует обращать внимание?

Как ваш компьютер вырабатывает тепло?

Простой факт в том, что тепло — это естественный побочный продукт электричества.Все, что использует энергию для приведения в движение активности — будь то компьютер, двигатель автомобиля или наши собственные тела — приводит к передаче тепла. Конечно, количество необходимой электроэнергии зависит от выполняемой задачи.

Компоненты внутри вашего компьютера легко выделяют тепло, особенно ЦП (что такое ЦП?) И Графический процессор (ГП), поскольку электричество передается по цепям и испытывает сопротивление.

Что такое ЦП и для чего он нужен?

Аббревиатуры в вычислительной технике сбивают с толку. Что вообще такое процессор? А мне нужен четырехъядерный или двухъядерный процессор? А как насчет AMD или Intel? Мы здесь, чтобы помочь объяснить разницу!

Например, при разгоне происходит чрезмерное нагревание.Это когда вы используете процессор с более высокой тактовой частотой, чем предполагают его производители. Как правило, вы можете узнать идеальную тактовую частоту, посетив сайт производителя вашего процессора, но, если вы не разбираетесь в скорости, это не будет иметь большого значения для вас.

Основное преимущество разгона — это более эффективная и быстрая операционная система, но для выполнения задач также требуется более высокое напряжение.Эта большая потребность в электричестве приводит к тому, что ваш процессор выделяет больше тепла.

Игра в игры, просмотр дисков Blu-ray и DVD, копирование, запись и обмен файлами могут вызвать нагрузку на ваш процессор, как и обычное обслуживание, редактирование и кодирование системы.Как вы понимаете, при одновременном выполнении нескольких задач перегрев может стать серьезной проблемой.

Некоторые пользователи пытаются противодействовать этому, используя процесс, называемый понижением частоты; это снижает теплопередачу за счет замены кристалла генератора внутри компонента.Но это, естественно, снижает и эффективность системы. Фактически, если вы хотите, чтобы в вашей комнате было прохладно без кондиционера, вы можете полностью выключить компьютер.

Как определить перегрев ПК

Несмотря на то, что тепло влияет на производительность, температура вашего ПК редко становится настолько высокой, чтобы нарушить повседневную работу.Однако, если ваш компьютер работает медленно или регулярно зависает, это главный показатель того, что вы превышаете максимальную рекомендуемую рабочую температуру процессора.

Внутренние вентиляторы также могут быть более шумными, чем обычно, что означает, что они работают быстрее, чтобы снизить температуру материнской платы и процессора.Это достигается за счет отвода более горячего воздуха от важных компонентов через радиатор (естественно теплопроводный компонент, обычно сделанный из алюминия) и из корпуса.

В компьютерах есть устройство защиты от сбоев, которое отключает перегретые части для предотвращения необратимого повреждения.В некоторых случаях вся система отключается и отказывается полностью перезапускаться, пока не остынет. Даже тогда, если есть неисправное оборудование, оно может позволить вам ненадолго получить доступ к файлам, прежде чем снова выключиться.

Если у вас есть доступ к внутренней части компьютера, отключите компьютер от электросети и осторожно прикоснитесь к его компонентам.Ожидайте, что они будут довольно теплыми, но ни к чему нельзя прикасаться. Будьте осторожны при этом, чтобы не пораниться или повредить что-нибудь внутри машины.

Это перегрев или просто жарко?

Не паникуйте, если вы слышите, как работают вентиляторы вашего ПК.Это совершенно нормально. Любые сложные задачи, выполняемые процессором, графическим процессором, жестким диском (HDD) и, в меньшей степени, оптическим приводом (DVD или Blu-ray), повышают температуру вашего ПК. Компьютеры обычно выделяют тепло без вредного воздействия.

Конечно, если ваши вентиляторы постоянно работают со значительной шумной скоростью, это признак перегрева.Однако, если вы не слышите вентилятор, это тоже может быть проблемой.

Сломанный вентилятор может быть причиной того, что ваша система слишком горячая, но как еще вы можете определить, слишком ли нагревается машина? Ваш главный показатель — производительность вашего ПК.

Вы могли заметить, что он работает медленнее, чем обычно, даже при попытке выполнить базовые задачи, такие как открытие множества вкладок в браузере или одновременный запуск двух программ.Ваш компьютер может выключаться или перезагружаться без предварительного предупреждения. И, конечно, если он полностью зависает и показывает синий экран смерти, что-то определенно не так!

Естественно, проблемы с производительностью не обязательно означают превышение идеальной температуры процессора.Вредоносное ПО также может повлиять на ваш компьютер, поэтому уменьшите этот риск, приняв надежные меры безопасности.

В Windows вы можете проверить, какие приложения наиболее загружают процессор с помощью монитора ресурсов.Просто найдите приложение на своем рабочем столе, и вы увидите, какие программы работают в фоновом режиме (и, возможно, некоторые из них были недавно закрыты). Не волнуйтесь: этот список будет обширным, и это совершенно нормально.

Помимо сломанного вентилятора, плохой воздушный поток, вызванный плохо расположенными компонентами или закупоркой вентиляционных отверстий, также может быть причиной перегрева.Где твой компьютер? Замкнутое пространство может задерживать тепло; в пыльных помещениях вентиляционные отверстия могут забиться. Узнайте больше о том, как тепло влияет на ваш компьютер.

Какая температура должна быть у вашего процессора?

Ваш компьютер рассчитан на работу с максимальной производительностью при комнатной температуре — то есть в комфортабельной комнате, в которой не кажется ни слишком жарко, ни слишком холодно.Легко сказать, но все предпочитают разную температуру!

Так какова нормальная температура компьютера? С научной точки зрения, температура окружающей среды в помещении составляет от 20 ° C / 68 ° F до 26 ° C / 79 ° F, в среднем около 23 ° C / 73 ° F.Все, что превышает 27 ° C / 80 ° F, потенциально может повредить ваш компьютер. Очевидно, летом этого стоит особенно остерегаться.

Холод, конечно, не так опасен, как чрезмерная жара.Не стоит бояться температуры чуть ниже 20 ° C / 68 ° F.

Простой ртутный термометр может дать вам точный измеритель вашей рабочей поверхности.

Рекомендуется следить за своим процессором, доступным через базовую систему ввода / вывода ( BIOS) или унифицированный расширяемый интерфейс микропрограмм (UEFI).По сути, это система, которая дает команду оборудованию загрузить операционную систему сразу после включения компьютера. По необходимости это означает, что у вас есть узкое окно для доступа к BIOS.

Ваш процессор будет работать при более высокой температуре, чем в комнате, поэтому не паникуйте, когда вы его впервые увидите.Что слишком горячее, чтобы процессор мог работать? Вам следует обратиться к документации по вашей системе, поскольку она зависит от того, в каких условиях ваше оборудование должно нормально работать.

Итак, насколько горячим может стать процессор? Как правило, ваш процессор не должен работать при температуре выше 75 ° C / 167 ° F.

Как поддерживать безопасную температуру процессора

Ключевым моментом является поддержание прохлады в среде вашего компьютера.Это может быть так же просто, как открыть ближайшее окно или установить поблизости качающийся вентилятор.

Потенциально простые решения включают изменение окружающей обстановки (например, перенос вашего компьютера или ноутбука в более прохладную комнату летом) и использование баллона со сжатым воздухом для открытия вентиляционных отверстий.

Ноутбуки легче охладить, чем компьютеры, но они также склонны к перегреву из-за меньшего размера радиаторов и более узких вентиляционных отверстий.

8 лучших приложений для мониторинга температуры компьютеров

Перегрев — основная причина проблем с компьютером.Используйте одно из этих приложений для мониторинга температуры, чтобы поддерживать здоровье вашего ПК.

Тепло наносит ущерб компьютерам, особенно ноутбукам.Плотные корпуса и скопление пыли могут привести к плохой циркуляции воздуха. Без циркуляции тепло, генерируемое внутри, некуда деваться.

Игнорирование проблем с нагревом — самый верный способ испортить ноутбук. Вы думали, он тормозит, потому что старый? Отчасти это правда, но не вся история.

Тепло может серьезно снизить производительность компонентов компьютера, причем жесткие диски являются наиболее уязвимыми.Если кажется, что ваш жесткий диск умирает, сначала проверьте внутреннюю температуру. К счастью, проверить температуру так же просто, как использовать одно из этих бесплатных приложений для мониторинга тепла.

Если вас больше всего беспокоит температура жесткого диска, не ищите ничего, кроме CrystalDiskInfo.Это специальная утилита для управления состоянием жестких дисков и твердотельных накопителей, которая настолько полезна, что мы считаем ее обязательным диагностическим инструментом для пользователей Windows.

Благодаря понятному и простому в использовании интерфейсу у вас не возникнет проблем с перемещением всей имеющейся информации.И со всеми его расширенными функциями он достаточно практичен для опытных пользователей, а не только для новичков.

Примечательные особенности включают:

  • Контролирует температуру для всех системных жестких дисков и твердотельных накопителей.
  • Состояние здоровья оценивает общее состояние каждого диска.
  • Углубленная диагностика всех значений привода чтения / записи.
  • Подробные графики значений HDD и SSD с течением времени.
  • Доступен в 32-битном и 64-битном вариантах, установлен или переносится.

Скачать: CrystalDiskInfo для Windows (бесплатно)

Core Temp — это быстрый, точный и гибкий монитор температуры ноутбука.Тем не менее, небольшое предупреждение: установщик идет в комплекте! Вы можете избежать этого, сняв отметку, но при установке необходимо обращать внимание. В остальном рекламы нет.

Примечательные особенности включают:

  • Значок на панели задач с информацией в реальном времени.
  • Выберите, какой датчик отображать в значке на панели задач.
  • Защита от перегрева уведомляет, когда температура слишком высокая.
  • Отслеживает сведения об аппаратном обеспечении системы для справки.
  • Проверяет наличие обновлений BIOS и драйверов.

Скачать: Core Temp для Windows (бесплатно)

HWiNFO — это легкий диагностический инструмент для получения подробной информации об оборудовании и систем мониторинга в режиме реального времени.Это намного проще в использовании, чем кажется. Кроме того, он активно обновляется — новая версия выходит примерно раз в 1-2 месяца, что отлично подходит для самых современных систем.

Примечательные особенности включают:

  • Значок на панели задач с информацией в реальном времени.
  • Отчеты для ЦП, ОЗУ, жестких дисков, твердотельных накопителей, аккумулятора и т. Д.
  • Позволяет удаленно контролировать данные датчиков.
  • Доступен в 32-битном и 64-битном вариантах, установлен или переносится.

Скачать: HWiNFO для Windows (бесплатно)

HWMonitor — одно из самых надежных приложений для мониторинга системы, доступных в настоящее время.Бесплатная версия более чем достаточна для отслеживания температуры, но есть версия Pro с расширенными функциями (например, создание графиков) за 20 евро.

Примечательные особенности включают:

  • Считайте показания любого датчика напряжения, температуры или вентилятора.
  • Сохраняйте данные мониторинга в журнал для устранения неполадок.
  • Проверяет наличие обновлений BIOS и драйверов.
  • Доступен в 32-битном и 64-битном вариантах, установлен или переносится.

Скачать: HWMonitor для Windows (бесплатно)

Если вы используете Windows на Mac, все становится немного сложнее, потому что у оборудования Mac есть несколько проприетарных причуд.

Графический процессор

— Простая английская Википедия, бесплатная энциклопедия

Изображение графического процессора nVidia GeForce 3 Ti200


Графический процессор ( GPU ) — это процессор, который обрабатывает (или создает) изображения, анимацию и графику и отображает их на экране компьютера. Мощный графический процессор может плавно и эффективно обрабатывать сложные анимации и графику.

Обычно есть два типа изображений, которые должен вычислять графический процессор, что также называется рендерингом.В большинстве приложений, таких как рабочий стол операционной системы (кроме, например, Aero Desktop в Windows Vista) или офисных приложений, графический процессор должен отображать двухмерные (2D) изображения. Современные графические процессоры настолько мощны, что нет разницы в производительности в 2D между недорогими и дорогими графическими процессорами.

Некоторые приложения используют трехмерные изображения для имитации трехмерности. Примерами таких приложений являются компьютерные и видеоигры или приложения для проектирования и технического строительства (САПР). Производительность 3D-ускорения графических процессоров сильно различается.Как правило, более дорогие графические процессоры могут обрабатывать изображения быстрее, чем недорогие.

Nvidia, AMD и Intel являются наиболее распространенными разработчиками видеокарт. Тем не менее, многие производители работают с этими тремя компаниями для производства самого оборудования. Эти производители включают, но не ограничиваются, Asus, MSI и EVGA. AMD и Intel иногда включают в себя встроенные графические процессоры, встроенные в свои процессоры, но они не так мощны, как выделенный внешний графический процессор, отдельный от центрального процессора.

Первые видеокарты использовались в 1970-х годах в игровых автоматах как более дешевая альтернатива оперативной памяти (RAM).Однако графические карты были непригодны для потребительских товаров до выпуска микросхемы крупномасштабной интеграции (LSI) в 1980-х годах. В период с начала и до середины 1990-х графические карты с поддержкой 3D стали более распространенными в аркадных, компьютерных и консольных играх. Первым графическим процессором потребительского уровня, предназначенным для персональных компьютеров, была Nvidia GeForce 256, выпущенная в 1999 году.

Графические процессоры

обычно используются в компьютерах и игровых системах для рендеринга графики для видеоигр, в которую невозможно играть без надлежащего графического процессора.Однако другие устройства, такие как гарнитуры виртуальной реальности и автомобили без водителя, также используют графические процессоры. Вычисления на графическом процессоре, которые могут выполнять все задачи, которые может выполнять графический процессор, включают вычисления, программирование искусственного интеллекта, редактирование фотографий и другие приложения.

Термин «вычисления с помощью графического процессора» объединяет все задачи, которые может вычислить графический процессор, которые выходят за рамки простого вычисления и вывода изображений. Это также известно под термином «вычисления общего назначения на графическом процессоре». Задачи — это расчет физики, искусственный интеллект или даже ускорение редактирования видео и изображений.Одним из первых приложений, поддерживающих вычисления на графическом процессоре, является Adobe Photoshop CS4.

Подход nVidia: CUDA [изменить | изменить источник]

nVidia называет свою попытку вычислений на GPU CUDA. [1] Это интерфейс nVidia для использования графических процессоров для общих вычислительных задач. CUDA основан на языке программирования C.

Подход ATi: Stream [изменить | изменить источник]

ATi вызывает их попытку Stream. [2] До выпуска Stream с графическим драйвером ATi Catalyst 8 было несколько попыток под другим именем.12 »в декабре 2008 года.

Подход S3 Graphic [изменить | изменить источник]

S3 Graphics представила первое приложение [3] для редактирования видео, которое ускоряется их новейшими графическими процессорами. Тем не менее, нет информации, продолжит ли S3 Graphics наращивать свои усилия в области вычислений на GPU.

Последней вехой в области вычислений на графических процессорах стало объявление AMD [4] суперкомпьютера на базе графических процессоров на выставке CES в январе 2009 года. Он будет построен из более чем тысячи графических процессоров и будет иметь вычислительную мощность в один петафлоп. .

Внешний графический процессор — это графический процессор, расположенный вне корпуса компьютера. Внешние графические процессоры используются с портативными компьютерами, в которых отсутствует мощный графический процессор. Встроенные графические чипы недостаточно мощны для задач с интенсивной графикой. Поэтому желательно подключить к какому-нибудь ноутбуку GPU.

Большинство графических процессоров, выпущенных с 1995 года, поддерживают цветовое пространство YUV и аппаратные наложения, а многие графические процессоры, выпущенные после 2000 года, также поддерживают примитивы MPEG. Это процесс аппаратного ускорения декодирования видео.Самые последние видеокарты даже декодируют видео высокой четкости на карте, разгружая центральный процессор.

Ранние графические процессоры использовали интерфейс Peripheral Component Interconnect (PCI) для связи с материнской платой компьютера, тип слота, который до сих пор используется для простых надстроек материнских плат, таких как дополнительные карты обработки звука или USB-порты. По мере того, как графические карты становились более мощными, а графические приложения более требовательными, был создан более быстрый вид интерфейса, названный Advanced Graphics Port (AGP), а затем PCIe x16 (PCI Express 16-полосный) после него, текущий общий стандарт.В 2008 году был представлен PCIe 2.0, удвоивший скорость PCIe 1.0 и сохранивший работу со старыми интерфейсами PCI Express.

Графические карты

PCI будут работать только в слотах PCI; AGP будет работать только в слотах AGP. Графические карты PCIe не будут работать в слотах PCI, а графические карты PCI не будут работать в слотах PCIe. Однако видеокарты PCI Express 2.0 будут работать в слотах материнской платы PCI Express x16 1.0 и наоборот.

Системы

с несколькими графическими процессорами — это компьютеры, в которых используется более одного графического процессора.Обычно это используется в высокопроизводительных домашних компьютерах для ускорения компьютерных игр, но есть также возможность иметь один графический процессор для обработки обычных игровых сцен и один графический процессор для расчета физики. В настоящее время это поддерживается только графическими процессорами nVidia и называется PhysX. ATi и Intel разработали собственный физический движок под названием Havok.

История систем с несколькими графическими процессорами [изменить | изменить источник]

Первые попытки создания систем с несколькими графическими процессорами были сделаны компанией 3Dfx, которую позже купила nVidia. Их видеокарты Voodoo , которые были только 3D-ускорителями, можно было подключить ко второй видеокарте Voodoo для повышения производительности.Это называлось SLi. Теоретически производительность увеличилась бы вдвое, на практике она увеличилась гораздо меньше, в зависимости от видеоигры, что по-прежнему является проблемой в современных многопроцессорных системах. Позже 3Dfx построила более одного графического процессора на одной видеокарте. Последняя видеокарта Voodoo 6 была основана на четырех графических процессорах, но так и не была выпущена. Однако существует несколько инженерных образцов Voodoo 6, в основном принадлежащих коллекционерам.

SLi от nVidia [изменить | изменить источник]

Изображение системы 3-way-SLi с использованием трех видеокарт nVidia GeForce 8800 Ultra

После того, как nVidia купила 3Dfx, системы с несколькими графическими процессорами прекратили существование на несколько лет, пока nVidia снова не пришла к этой идее в 2004 году.Поскольку nVidia купила все технологии и торговые марки у 3Dfx, они просто снова использовали название SLi. Сегодняшняя SLi [5] работает с тремя видеокартами, что называется 3-way-SLi. Также были попытки с четырьмя картами, но это не удалось из-за ограничений в API DirectX9. Однако сегодняшний API DirectX10 поддерживает это.

Несмотря на наличие видеокарт, для построения SLi-системы необходима SLi-совместимая материнская плата. Такие материнские платы имеют несколько разъемов PEG (преемник AGP, основанный на технологии PCI-Express) для более чем одной видеокарты.

nVidia предлагает различные видеокарты с несколькими графическими процессорами, в которых два графических процессора построены на одной видеокарте. Их часто называют видеокартами с двумя графическими процессорами, и для них не требуется материнская плата, совместимая с SLi.

ATi CrossFireX [изменить | изменить источник]

Технология ATi Multi-GPU называется Cross Fire. [6] Работает точно так же, хотя есть меньше ограничений для комбинаций видеокарт. CrossFire был переименован в CrossFire X в 2007 году, чтобы представить возможность комбинировать более двух карт.Сегодня возможна система CrossFire X на базе четырех видеокарт или двух карт Dual-GPU.

Как и в случае с SLi, для построения системы CrossFire необходима материнская плата, совместимая с CrossFire. Одна видеокарта Dual-GPU от ATi не обязательно требует наличия такой Crossfire-совместимой материнской платы, но для двух из них она необходима.

  1. ↑ [1] Зона CUDA
  2. ↑ [2] Технология GPU для ускоренных вычислений
  3. ↑ [3] S3 Graphics демонстрирует функциональность GPGPU с помощью приложения для улучшения изображений S3FotoPro ™
  4. ↑ [4] Суперкомпьютер AMD будет предоставлять игры и приложения нового поколения полностью через облако
  5. ↑ [5] Зона SLI
  6. ↑ [6] ATi CrossFireX ™

БЛОК 6 КОМПЬЮТЕРНАЯ СИСТЕМА

Часть 1 Что такое компьютер?

Упражнения по теме:

И.Ответьте на следующие вопросы:

1. У вас есть компьютер дома или в колледже? Что это за?

2. Как часто вы им пользуетесь?

3. Каковы основные компоненты и особенности вашей компьютерной системы?

II. Обозначьте элементы этой компьютерной системы:

III. Прочтите эти рекламные слоганы и скажите, к какому элементу компьютера относится каждая пара:

1.а) наведите и щелкните здесь, чтобы получить питание; б) подчиняется каждому импульсу, как если бы он был продолжением вашей руки.

2. а) отображает ваши идеи с идеальным блеском; б) увидеть разницу четких изображений и фантастическую цветовую гамму.

3. а) тихо и быстро; б) легко сделать резервную копию ваших данных, пока не стало слишком поздно.

4. а) мощность и скорость внутри; б) позвольте мозгу вашего компьютера делать всю работу.

5. а) большое влияние на производство текста и графики; б) именно то, что вам нужно: лазерная электростанция.

IV. Прочтите следующий текст и объясните схему, приведенную ниже:

Компьютер — это электронная машина, которая может принимать данные в определенной форме, обрабатывать данные и предоставлять результаты обработки в указанном формате в качестве информации.

Сначала данные загружаются в память компьютера. Затем, когда программа запускается, компьютер выполняет набор инструкций и обрабатывает данные. Наконец, мы можем видеть результаты (вывод) на экране или в распечатанном виде.

Компьютерная система состоит из двух частей: аппаратного и программного обеспечения. Аппаратное обеспечение — это любая электронная или механическая часть, которую вы можете увидеть или потрогать. Программное обеспечение — это набор инструкций, называемых программой, которые говорят компьютеру, что делать. Есть три основных аппаратных раздела: центральный процессор (ЦП), основная память и периферийные устройства.

Пожалуй, самый важный компонент — это центральный процессор. Его функция заключается в выполнении программных инструкций и координации действий всех других модулей.В каком-то смысле это мозг компьютера. Основная память (набор микросхем ОЗУ) содержит инструкции и данные, которые обрабатываются ЦП. Периферийные устройства — это физические устройства, подключенные к компьютеру. К ним относятся устройства хранения и устройства ввода / вывода.

Устройства хранения (жесткие диски, DVD-диски или флэш-накопители) обеспечивают постоянное хранение как данных, так и программ. Дисковые накопители используются для чтения и записи данных на диски. Устройства ввода позволяют данным поступать в память компьютера.Самые распространенные устройства ввода — это мышь и клавиатура. Устройства вывода позволяют нам извлекать готовый продукт из системы. Например, компьютер показывает результат на мониторе или распечатывает результаты на бумаге с помощью принтера.



На задней панели компьютера есть несколько портов, в которые мы можем подключить широкий спектр периферийных устройств, включая модем, цифровую камеру, сканер и т. Д. Они обеспечивают связь между компьютером и устройствами. Современные настольные ПК имеют USB-порты и устройства чтения карт памяти на передней панели.

V. Подберите слова и словосочетания из текста с правильным значением:

1. программное обеспечение 2. периферийные устройства 3. основная память 4. жесткий диск (также известный как жесткий диск) 5. оборудование 6. ввод 7. порты 8. вывод 9. центральный процессор (ЦП) а) мозг компьютера б) физические части, составляющие компьютерную систему в) программы, которые можно использовать в конкретной компьютерной системе г) информация, которая представляется в компьютер д) результаты, полученные компьютером е) устройства ввода, подключенные к ЦП g) раздел, в котором хранятся программы и данные во время их выполнения или обработки. з) магнитное устройство, используемое для хранения информации i) розетки, к которым можно подключать внешнее устройство

VI.Ответьте на следующие вопросы к тексту:

1. Что такое компьютер?

2. Как данные обрабатываются в компьютере?

3. Что входит в состав компьютерной системы?

4. Каковы функции трех основных аппаратных секций?

5. Что предоставляют устройства хранения?

6. Для чего используются порты?

Часть 2 Типы компьютеров

Упражнения по теме:

И.Прослушайте текст и пометьте картинки следующими словами: ноутбук; настольный ПК; КПК; мэйнфрейм; планшетный ПК.

II. Послушайте еще раз и решите, верны ли следующие предложения или нет. Исправить неправильные.



1. Мэйнфрейм менее мощный, чем ПК.

2. Мэйнфреймы используются в крупных организациях, которым необходимо обрабатывать огромные объемы данных.

3.Наиболее подходящими компьютерами для домашнего использования являются настольные ПК.

4. Ноутбук не портативный.

5. Ноутбуки не такие мощные, как настольные ПК.

6. Используя стилус, вы можете писать прямо на экране планшетного ПК.

7. Персональный цифровой помощник достаточно мал, чтобы поместиться в ладони.

8. КПК не позволяет просматривать веб-страницы.



Лучшие графические процессоры для глубокого обучения в 2020 году — углубленный анализ

Глубокое обучение — это область с высокими требованиями к вычислениям, и ваш выбор графического процессора в значительной степени определит ваш опыт глубокого обучения.Но какие функции важны, если вы хотите купить новый графический процессор? GPU RAM, ядра, тензорные ядра? Как сделать выгодный выбор? В этом сообщении блога мы углубимся в эти вопросы, рассмотрим распространенные заблуждения, дадим вам интуитивное понимание того, как думать о графических процессорах, и дадим вам совет, который поможет вам сделать правильный выбор.

Этот пост в блоге разработан, чтобы дать вам разное понимание графических процессоров и новых графических процессоров серии Ampere от NVIDIA. У вас есть выбор: (1) Если вас не интересуют подробности того, как работают графические процессоры, что делает графический процессор быстрым и в чем уникальность новой серии NVIDIA RTX 30 ампер, вы можете сразу перейти к производительности и производительности на долларовые графики и раздел рекомендаций.Они составляют основу сообщения в блоге и наиболее ценный контент.

(2) Если вы беспокоитесь о конкретных вопросах, я ответил и рассмотрел наиболее распространенные вопросы и заблуждения в более поздней части сообщения в блоге.

(3) Если вы хотите глубоко понять, как работают графические процессоры и тензорные ядра, лучше всего прочитать сообщение в блоге от начала до конца. Возможно, вы захотите пропустить один или два раздела в зависимости от вашего понимания представленных тем.

Я буду начинать каждый основной раздел с небольшим резюме, которое может помочь вам решить, хотите ли вы читать этот раздел или нет.

Обзор

Это сообщение в блоге структурировано следующим образом. Сначала я объясню, что делает графический процессор быстрым. Я буду обсуждать центральные процессоры и графические процессоры, тензорные ядра, пропускную способность памяти и иерархию памяти графических процессоров, а также их связь с производительностью глубокого обучения. Эти объяснения могут помочь вам получить более интуитивное представление о том, что искать в графическом процессоре. Затем я сделаю теоретические оценки производительности графического процессора и свяжу их с некоторыми маркетинговыми тестами NVIDIA, чтобы получить надежные и объективные данные о производительности.Я обсуждаю уникальные особенности новой серии графических процессоров NVIDIA RTX 30 Ampere, которые стоит учесть при покупке графического процессора. Оттуда я даю рекомендации по графическому процессору для 1-2, 4, 8 конфигураций графического процессора и кластеров графического процессора. После этого следует раздел вопросов и ответов, которые задают мне в ветках Twitter; В этом разделе я также рассмотрю распространенные заблуждения и некоторые разные проблемы, такие как облако против настольного компьютера, охлаждение, AMD против NVIDIA и другие.

Как работают графические процессоры?

Если вы часто используете графические процессоры, полезно понять, как они работают.Эти знания пригодятся для понимания того, почему графические процессоры могут быть медленными в одних случаях и быстрыми в других. В свою очередь, вы сможете лучше понять, зачем вам вообще нужен графический процессор и как другие будущие варианты оборудования могут конкурировать. Вы можете пропустить этот раздел, если вам просто нужны полезные цифры производительности и аргументы, которые помогут вам решить, какой графический процессор купить. Лучшее объяснение на высоком уровне вопроса о том, как работают графические процессоры, — это мой следующий ответ на Quora:

Прочтите ответ Тима Деттмерса на вопрос, почему графические процессоры хорошо подходят для глубокого обучения? на Quora

Это объяснение высокого уровня, которое довольно хорошо объясняет, почему графические процессоры лучше, чем процессоры для глубокого обучения.Если мы посмотрим на детали, мы сможем понять, что делает один графический процессор лучше другого.

Наиболее важные характеристики графического процессора для скорости обработки глубокого обучения

Этот раздел поможет вам составить более интуитивное представление о том, как думать о производительности глубокого обучения. Это понимание поможет вам самостоятельно оценить будущие графические процессоры.

Тензорные ядра

Резюме:

  • Тензорные ядра сокращают количество используемых циклов, необходимых для вычисления операций умножения и сложения, в 16 раз — в моем примере для матрицы 32 × 32, со 128 до 8 циклов.
  • Тензорные ядра снижают зависимость от повторяющегося доступа к общей памяти, тем самым экономя дополнительные циклы доступа к памяти.
  • Тензорные ядра настолько быстры, что вычисления больше не являются узким местом. Единственное узкое место — это передача данных тензорным ядрам.

Сейчас достаточно дешевых графических процессоров, и почти каждый может позволить себе графический процессор с тензорными ядрами. Вот почему я рекомендую только графические процессоры с тензорными ядрами. Полезно понять, как они работают, чтобы оценить важность этих вычислительных единиц, специализированных для умножения матриц.Здесь я покажу вам простой пример умножения матриц A * B = C, где все матрицы имеют размер 32 × 32, как выглядит вычислительный шаблон с тензорными ядрами и без них. Это упрощенный пример, а не точный способ написания высокопроизводительного ядра матричного умножения, но в нем есть все основы. Программист CUDA воспримет это как первый «черновик», а затем оптимизирует его шаг за шагом с помощью таких концепций, как двойная буферизация, оптимизация регистров, оптимизация занятости, параллелизм на уровне инструкций и многие другие, которые я не буду обсуждать здесь. .9 циклов в секунду. Каждый цикл представляет собой возможность для вычислений. Однако в большинстве случаев операции занимают больше одного цикла. Таким образом, он создает конвейер, в котором для запуска одной операции ему необходимо дождаться количества циклов времени, которое требуется для завершения предыдущей операции. Это также называется задержкой операции.

Вот некоторые важные значения времени цикла или задержки для операций:

  • Доступ к глобальной памяти (до 48 ГБ): ~ 200 циклов
  • Доступ к общей памяти (до 164 КБ на потоковый мультипроцессор): ~ 20 циклов
  • Объединенное умножение и сложение (FFMA): 4 цикла
  • Умножение матрицы тензорного ядра: 1 цикл

Кроме того, вы должны знать, что наименьшие единицы потоков на графическом процессоре представляют собой пакет из 32 потоков — это называется искажением.Деформации обычно работают синхронно — потоки внутри основы должны ждать друг друга. Все операции с памятью на GPU оптимизированы для перекосов. Например, загрузка из глобальной памяти происходит с детализацией 32 * 4 байта, ровно 32 числа с плавающей запятой, ровно по одному числу с плавающей запятой для каждого потока в деформации. У нас может быть до 32 деформаций = 1024 потока в потоковом мультипроцессоре (SM), что является эквивалентом ядра ЦП на GPU. Ресурсы SM распределяются между всеми активными варпами. Это означает, что иногда мы хотим запускать меньше деформаций, чтобы иметь больше регистров / разделяемой памяти / ресурсов тензорного ядра на деформацию.

Для обоих следующих примеров мы предполагаем, что у нас одинаковые вычислительные ресурсы. Для этого небольшого примера умножения матрицы 32 × 32 мы используем 8 SM (около 10% от RTX 3090) и 8 деформаций на SM.

Умножение матриц без тензорных ядер

Если мы хотим произвести матричное умножение A * B = C, где каждая матрица имеет размер 32 × 32, то мы хотим загрузить память, к которой мы постоянно обращаемся, в общую память, поскольку ее задержка примерно в десять раз меньше (200 циклов против 20 циклов).Блок памяти в общей памяти часто называют плиткой памяти или просто плиткой. Загрузка двух поплавков 32 × 32 в плитку с общей памятью может происходить параллельно с использованием деформаций 2 * 32. У нас есть 8 SM с 8 деформациями в каждом, поэтому из-за распараллеливания нам нужно выполнить только одну последовательную загрузку из глобальной в общую память, что занимает 200 циклов.

Чтобы выполнить матричное умножение, нам теперь нужно загрузить вектор из 32 чисел из общей памяти A и общей памяти B и выполнить объединенное умножение и накопление (FFMA).Затем сохраняем выходные данные в регистрах C. Мы разделяем работу так, чтобы каждый SM производил 8 точечных произведений (32 × 32) для вычисления 8 выходных данных C. Почему это ровно 8 (4 в старых алгоритмах), это очень технический вопрос. Я рекомендую статью в блоге Скотта Грея о матричном умножении, чтобы понять это. Это означает, что у нас есть 8-кратный доступ к разделяемой памяти по цене 20 циклов каждая и 8 операций FFMA (32 параллельных), каждая из которых стоит 4 цикла. Таким образом, общая стоимость составляет:

200 циклов (глобальная память) + 8 * 20 циклов (общая память) + 8 * 4 цикла (FFMA) = 392 цикла

Давайте посмотрим на стоимость цикла использования тензорных ядер. .

Умножение матриц с помощью тензорных ядер

С помощью тензорных ядер мы можем выполнить умножение матриц 4 × 4 за один цикл. Для этого нам сначала нужно получить память в тензорном ядре. Как и выше, нам нужно читать из глобальной памяти (200 циклов) и сохранять в общей памяти. Чтобы выполнить матричное умножение 32 × 32, нам нужно выполнить 8 × 8 = 64 операций тензорных ядер. Один SM имеет 8 тензорных ядер. Итак, с 8 SM у нас есть 64 тензорных ядра — как раз то количество, которое нам нужно! Мы можем передать данные из общей памяти в тензорные ядра за 1 передачу памяти (20 циклов), а затем выполнить эти 64 параллельных операции тензорного ядра (1 цикл).Это означает, что общая стоимость умножения матриц тензорных ядер в данном случае составляет:

200 циклов (глобальная память) + 20 циклов (разделяемая память) + 1 цикл (тензорное ядро) = 221 цикл.

Таким образом, мы значительно снижаем стоимость умножения матриц с 392 до 221 цикла с помощью тензорных ядер. В этом упрощенном случае тензорные ядра снизили стоимость как доступа к общей памяти, так и операций FFMA.

Хотя этот пример примерно следует последовательности вычислительных шагов как с тензорными ядрами, так и без них, обратите внимание, что это очень упрощенный пример.Реальные случаи умножения матриц включают гораздо большие плитки общей памяти и немного другие схемы вычислений.

Однако, как мне кажется, из этого примера также ясно, почему следующий атрибут, полоса пропускания памяти, так важен для графических процессоров, оснащенных Tensor-Core. Поскольку глобальная память составляет наиболее значительную часть стоимости цикла для матричного умножения с тензорными ядрами, у нас были бы даже более быстрые графические процессоры, если бы глобальная задержка памяти могла быть уменьшена. Мы можем сделать это либо увеличив тактовую частоту памяти (больше циклов в секунду, но также больше тепла и более высокие требования к энергии), либо увеличив количество элементов, которые могут быть переданы в любой момент (ширина шины).

Пропускная способность памяти

Из предыдущего раздела мы видели, что тензорные ядра очень быстрые. Фактически, настолько быстры, что большую часть времени они простаивают, ожидая поступления памяти из глобальной памяти. Например, во время обучения BERT Large, в котором используются огромные матрицы — чем больше, тем лучше для тензорных ядер — у нас есть коэффициент использования TFLOPS тензорного ядра около 30%, что означает, что 70% времени тензорные ядра простаивают.

Это означает, что при сравнении двух графических процессоров с тензорными ядрами одним из лучших показателей производительности каждого графического процессора является их пропускная способность памяти.Например, графический процессор A100 имеет пропускную способность памяти 1555 ГБ / с по сравнению с 900 ГБ / с у V100. Таким образом, базовая оценка ускорения A100 по сравнению с V100 составляет 1555/900 = 1,73x.

Общая память / Размер кэша L1 / Регистры

Поскольку передача памяти тензорным ядрам является ограничивающим фактором производительности, мы ищем другие атрибуты графического процессора, которые обеспечивают более быструю передачу памяти тензорным ядрам. Общая память, кэш L1 и количество используемых регистров взаимосвязаны. Чтобы понять, как иерархия памяти обеспечивает более быструю передачу памяти, это помогает понять, как умножение матриц выполняется на графическом процессоре.

Для выполнения матричного умножения мы используем иерархию памяти графического процессора, которая идет от медленной глобальной памяти к быстрой локальной общей памяти и к молниеносным регистрам. Однако чем быстрее память, тем она меньше. Таким образом, нам нужно разделить матрицу на более мелкие матрицы. Мы выполняем матричное умножение этих меньших плиток в локальной общей памяти, которая работает быстро и близко к потоковому мультипроцессору (SM) — эквиваленту ядра ЦП. С тензорными ядрами мы идем еще дальше: мы берем каждую плитку и загружаем часть этих плиток в тензорные ядра.Плитка матричной памяти в общей памяти примерно в 10-50 раз быстрее, чем глобальная память графического процессора, тогда как регистры тензорных ядер примерно в 200 раз быстрее, чем глобальная память графического процессора.

Наличие больших плиток означает, что мы можем повторно использовать больше памяти. Я подробно писал об этом в своем блоге TPU vs GPU. Фактически, вы можете видеть, что TPU имеет очень и очень большие плитки для каждого тензорного ядра. Таким образом, TPU могут повторно использовать гораздо больше памяти при каждой передаче из глобальной памяти, что делает их немного более эффективными при матричном умножении, чем графические процессоры.

Размер каждого тайла определяется объемом памяти, который у нас есть на один потоковый мультипроцессор (SM), что эквивалентно «ядру ЦП» на графическом процессоре. У нас есть следующие размеры разделяемой памяти на следующих архитектурах:

  • Volta: 96 Кбайт разделяемой памяти / 32 Кбайт L1
  • Turing: 64 Кбайт разделяемой памяти / 32 Кбайт L1
  • Ампер: 164 Кбайт разделяемой памяти / 32 Кбайт L1

Мы видим, что Ampere имеет гораздо больший объем разделяемой памяти, что позволяет использовать плитки большего размера, что снижает доступ к глобальной памяти.Таким образом, Ampere может лучше использовать общую пропускную способность памяти в памяти GPU. Это улучшает производительность примерно на 2-5%. Прирост производительности особенно заметен для больших матриц.

Тензорные ядра Ampere имеют еще одно преимущество в том, что они совместно используют больше данных между потоками. Это уменьшает использование регистров. Регистры ограничены 64 КБ на потоковый мультипроцессор (SM) или 255 на поток. Сравнивая тензорное ядро ​​Volta и Ampere, тензорное ядро ​​Ampere использует в 3 раза меньше регистров, что позволяет большему количеству тензорных ядер быть активными для каждой плитки разделяемой памяти.Другими словами, мы можем накормить в 3 раза больше тензорных ядер с таким же количеством регистров. Однако, поскольку пропускная способность по-прежнему является узким местом, вы увидите лишь незначительное увеличение фактического и теоретического TFLOPS. Новые тензорные ядра улучшают производительность примерно на 1-3%.

В целом, вы можете видеть, что архитектура Ampere оптимизирована, чтобы сделать доступную полосу пропускания памяти более эффективной за счет использования улучшенной иерархии памяти: от глобальной памяти до плиток общей памяти, чтобы зарегистрировать плитки для тензорных ядер.

Оценка производительности глубокого обучения Ampere

Резюме:

  • Теоретические оценки, основанные на пропускной способности памяти и улучшенной иерархии памяти графических процессоров Ampere, предсказывают ускорение от 1,78x до 1,87x.
  • NVIDIA предоставляет данные тестов точности для графических процессоров Tesla A100 и V100. Эти данные являются необъективными для маркетинговых целей, но на основе этих данных можно построить неэффективную модель.
  • Сведенные тестовые данные показывают, что Tesla A100 по сравнению с V100 составляет 1.В 70 раз быстрее для НЛП и в 1,45 раза быстрее для компьютерного зрения.

Этот раздел предназначен для тех, кто хочет разобраться в более технических деталях того, как я получаю оценки производительности для графических процессоров Ampere. Если вас не интересуют эти технические аспекты, можно пропустить этот раздел.

Теоретические оценки ампер-скорости

Объединив приведенные выше рассуждения, можно ожидать, что разница между двумя архитектурами графических процессоров, оснащенных тензорными ядрами, будет в основном связана с пропускной способностью памяти.Дополнительные преимущества заключаются в увеличении объема разделяемой памяти / кэша L1 и лучшего использования регистров в тензорных ядрах.

Если мы возьмем пропускную способность графического процессора Tesla A100 по сравнению с пропускной способностью Tesla V100, мы получим ускорение в 1555/900 = 1,73 раза. Кроме того, я ожидал бы ускорения на 2-5% от большей разделяемой памяти и на 1-3% от улучшенных тензорных ядер. Это дает диапазон ускорения от 1,78x до 1,87x. С помощью аналогичных рассуждений вы сможете оценить ускорение других графических процессоров серии Ampere по сравнению с Tesla V100.

Практические оценки ампер-скорости

Предположим, у нас есть оценка для одного графического процессора с архитектурой графического процессора, такой как Ampere, Turing или Volta. Эти результаты легко экстраполировать на другие графические процессоры той же архитектуры / серии. К счастью, NVIDIA уже протестировала A100 и V100 в широком диапазоне задач компьютерного зрения и понимания естественного языка. К сожалению, NVIDIA позаботилась о том, чтобы эти числа не были напрямую сопоставимы, используя разные размеры пакетов и количество графических процессоров, когда это возможно, в пользу результатов для A100.Так что в некотором смысле контрольные цифры частично честны, частично — маркетинговые. В общем, вы можете возразить, что использование пакетов большего размера справедливо, поскольку у A100 больше памяти. Тем не менее, чтобы сравнить архитектуры графических процессоров, мы должны оценить беспристрастную производительность памяти с тем же размером пакета.

Чтобы получить объективную оценку, мы можем масштабировать результаты V100 и A100 двумя способами: (1) учитывать различия в размере пакетов, (2) учитывать различия в использовании 1 и 8 графических процессоров. Нам повезло, что мы можем найти такую ​​оценку для обоих предубеждений в данных, которые предоставляет NVIDIA.

Удвоение размера пакета увеличивает пропускную способность с точки зрения изображений / с (CNN) на 13,6%. Я протестировал ту же проблему для трансформаторов на моем RTX Titan и обнаружил, что удивительно, тот же результат: 13,5% — похоже, это надежная оценка.

По мере того, как мы распараллеливаем сети между все большим и большим количеством графических процессоров, мы теряем производительность из-за некоторых сетевых накладных расходов. Система A100 8x GPU имеет лучшую сеть (NVLink 3.0), чем система V100 8x GPU (NVLink 2.0) — это еще один затрудняющий фактор.Глядя непосредственно на данные NVIDIA, мы можем обнаружить, что для CNN система с 8x A100 имеет на 5% меньше накладных расходов, чем система с 8x V100. Это означает, что если переход от 1x A100 к 8x A100 даст вам ускорение, скажем, в 7.00x, то переход с 1x V100 на 8x V100 даст вам ускорение только в 6,67x. По трансформаторам этот показатель составляет 7%.

Используя эти цифры, мы можем оценить ускорение для нескольких конкретных архитектур глубокого обучения на основе прямых данных, которые предоставляет NVIDIA. Tesla A100 предлагает следующее ускорение по сравнению с Tesla V100:

  • SE-ResNeXt101: 1.43x
  • Masked-R-CNN: 1.47x
  • Трансформатор (12 слоев, машинный перевод, WMT14 en-de): 1.70x

Таким образом, цифры немного ниже теоретической оценки для компьютерного зрения. Это может быть связано с меньшими тензорными размерами, накладными расходами на операции, необходимые для подготовки матричного умножения, такие как img2col или быстрое преобразование Фурье (БПФ), или операции, которые не могут насыщать графический процессор (конечные слои часто относительно малы). Это также могут быть артефакты конкретных архитектур (групповая свертка).

Практическая оценка трансформатора очень близка к теоретической. Вероятно, это связано с тем, что алгоритмы для огромных матриц очень просты. Я буду использовать эти практические оценки для расчета рентабельности графических процессоров.

Возможные ошибки в оценках

Приведенные выше оценки относятся к A100 и V100. В прошлом NVIDIA скрывала необъявленное снижение производительности «игровых» графических процессоров RTX: (1) снижение использования тензорных ядер, (2) игровые вентиляторы для охлаждения, (3) отключение одноранговой передачи графических процессоров.Возможно, что в серии RTX 30 есть необъявленное снижение производительности по сравнению с полной версией Ampere A100.

На данный момент была обнаружена одна из этих деградаций: производительность тензорного ядра была снижена, поэтому графические процессоры серии RTX 30 не так хороши, как карты Quadro для целей глубокого обучения. Это также было сделано для серии RTX 20, поэтому в этом нет ничего нового, но на этот раз это было также сделано для эквивалентной карты Titan, RTX 3090. RTX Titan не включал снижение производительности.

Я буду обновлять это сообщение в блоге по мере появления информации о дальнейшем необъявленном падении производительности.

Дополнительные соображения для Ampere / RTX 30 Series

Резюме:

  • Ampere допускает редкое сетевое обучение, что ускоряет обучение в 2 раза.
  • Разреженное сетевое обучение по-прежнему редко используется, но сделает Ampere перспективным.
  • Ampere имеет новые типы данных с низкой точностью, что делает использование низкой точности намного проще, но не обязательно быстрее, чем для предыдущих графических процессоров.
  • Новый дизайн вентилятора превосходен, если у вас есть пространство между графическими процессорами, но неясно, будут ли эффективно охлаждаться несколько графических процессоров без промежутка между ними.
  • Трехслотовая конструкция RTX 3090 делает сборку 4х GPU проблематичной. Возможные решения — варианты с двумя разъемами или использование расширителей PCIe.
  • 4x RTX 3090 потребует больше энергии, чем любой стандартный блок питания на рынке может обеспечить прямо сейчас.

Новая серия NVIDIA Ampere RTX 30 обладает дополнительными преимуществами по сравнению с серией NVIDIA Turing RTX 20, такими как редкое сетевое обучение и логический вывод.Другие функции, такие как новые типы данных, следует рассматривать скорее как функцию простоты использования, поскольку они обеспечивают такой же прирост производительности, что и Тьюринг, но без какого-либо дополнительного программирования.

Обучение работе с разреженной сетью

Ampere позволяет выполнять автоматическое умножение разреженной матрицы с мелкой структурой и высокой скоростью. Как это работает? Возьмите весовую матрицу и разрежьте ее на части по 4 элемента. Теперь представьте, что 2 элемента из этих 4 равны нулю. На рисунке 1 показано, как это могло бы выглядеть.

Когда вы умножаете эту разреженную матрицу весов на несколько плотных входных данных, функция ядра тензора разреженной матрицы в Ampere автоматически сжимает разреженную матрицу до плотного представления, которое составляет половину размера, как показано на рисунке 2. После этого сжатия плотно Сжатый матричный тайл подается в тензорное ядро, которое вычисляет матричное умножение, вдвое превышающее обычный размер. Это эффективно дает двукратное ускорение, поскольку требования к полосе пропускания при умножении матриц из общей памяти уменьшаются вдвое.

Рис. 2. Разреженная матрица сжимается до плотного представления перед выполнением умножения матриц. Рисунок взят из презентации Джеффа Пула GTC 2020 об ускорении разреженности в архитектуре NVIDIA Ampere, любезно предоставленной NVIDIA.

В своем исследовании я работал над обучением разреженным сетям, а также написал в блоге сообщение о разреженном обучении. Одна из критических замечаний по поводу моей работы заключалась в том, что «вы уменьшаете количество FLOPS, необходимое для сети, но это не дает увеличения скорости, потому что графические процессоры не могут выполнять быстрое умножение разреженных матриц.«Что ж, с добавлением функции умножения разреженных матриц для тензорных ядер, мой алгоритм или другие алгоритмы разреженного обучения теперь фактически обеспечивают ускорение до 2x во время обучения.

Рисунок 3: Разработанный мной алгоритм разреженного обучения состоит из трех этапов: (1) Определение важности каждого уровня. (2) Удалите наименьшие, неважные веса. (3) Увеличивайте новые веса пропорционально важности каждого уровня. Узнайте больше о моей работе в моем небольшом сообщении в блоге о тренировках.

Хотя эта функция все еще является экспериментальной, и обучение разреженных сетей еще не является обычным явлением, наличие этой функции на вашем GPU означает, что вы готовы к будущему разреженного обучения.

Вычисление с низкой точностью

В своей работе я ранее показал, что новые типы данных могут улучшить стабильность при обратном распространении с низкой точностью.

Рис. 4. Разработанные мной 8-битные типы данных с низким уровнем точности. При обучении глубокому обучению используются узкоспециализированные типы данных. В моем типе данных динамического дерева используется динамический бит, который указывает начало двоичного дерева деления пополам, которое квантовало диапазон [0, 0,9], в то время как все предыдущие биты используются для экспоненты. Это позволяет динамически представлять большие и маленькие числа с высокой точностью.

В настоящее время, если вы хотите иметь стабильное обратное распространение с 16-битными числами с плавающей запятой (FP16), большая проблема заключается в том, что обычные типы данных FP16 поддерживают только числа в диапазоне [-65,504, 65,504]. Если ваш градиент выходит за пределы этого диапазона, ваши градиенты превращаются в значения NaN. Чтобы предотвратить это во время обучения FP16, мы обычно выполняем масштабирование потерь, когда вы умножаете потерю на небольшое число перед обратным распространением, чтобы предотвратить этот градиентный взрыв. 38].BF16 имеет меньшую точность, то есть значащие цифры, но точность градиента не так важна для обучения. Итак, что делает BF16, так это то, что вам больше не нужно выполнять масштабирование потерь или беспокоиться о быстром увеличении градиента. Таким образом, мы должны увидеть повышение стабильности тренировки при использовании формата BF16 как небольшую потерю точности.

Что это означает для вас: с точностью BF16 тренировка может быть более стабильной, чем с точностью FP16, при том же ускорении. С точностью TF32 вы получаете почти стабильность FP32, а ускорение приближается к FP16.Хорошо то, что для использования этих типов данных вы можете просто заменить FP32 на TF32 и FP16 на BF16 — никаких изменений кода не требуется!

В целом, однако, эти новые типы данных можно рассматривать как ленивые типы данных в том смысле, что вы могли бы получить все преимущества старых типов данных с некоторыми дополнительными усилиями программирования (правильное масштабирование потерь, инициализация, нормализация с использованием Apex) . Таким образом, эти типы данных не обеспечивают ускорения, а, скорее, упрощают использование низкой точности для обучения.

Новая конструкция вентилятора / проблемы с температурой

Новая конструкция вентилятора для серии RTX 30 включает как нагнетательный вентилятор, так и двухтактный вентилятор. Дизайн гениальный и будет очень эффективным, если между графическими процессорами есть место. Так что, если у вас есть 2 графических процессора и один слот между ними (+3 слота PCIe), все будет в порядке, и проблем с охлаждением не будет. Однако неясно, как графические процессоры будут работать, если вы разместите их рядом друг с другом в установке с более чем двумя графическими процессорами. Вентилятор нагнетателя сможет выпускать воздух через кронштейн вдали от других графических процессоров, но невозможно сказать, насколько хорошо это работает, поскольку вентилятор нагнетателя имеет другую конструкцию, чем раньше.Итак, моя рекомендация: если вы хотите купить 1 графический процессор или 2 графических процессора в установке с 4 разъемами PCIe, то проблем возникнуть не должно. Однако, если вы собираетесь использовать 3-4 графических процессора RTX 30 рядом друг с другом, я бы дождался отчетов о тепловой производительности, чтобы узнать, нужны ли вам другие кулеры графического процессора, удлинители PCIe или другие решения. Я буду обновлять сообщение в блоге этой информацией, когда она станет доступной.

В любом случае водяное охлаждение поможет решить тепловые проблемы. Многие производители предлагают блоки водяного охлаждения для карт RTX 3080 / RTX 3090, которые сохранят их охлаждение даже при установке 4x GPU.Остерегайтесь универсального решения для водяного охлаждения для графических процессоров, если вы хотите запустить установку с 4-кратным графическим процессором, хотя в большинстве настольных ПК сложно разложить радиаторы.

Еще одно решение проблемы охлаждения — это покупка расширителей PCIe и размещение графических процессоров внутри корпуса. Это очень эффективно, и мы с другими аспирантами Вашингтонского университета успешно используем эту установку. Это не выглядит красиво, но держит ваши графические процессоры крутыми! Это также может помочь, если у вас недостаточно места для размещения графических процессоров.Например, если вы можете найти место в корпусе настольного компьютера, можно было бы купить стандартный RTX 3090 шириной 3 слота и распределить их с помощью удлинителей PCIe внутри корпуса. Благодаря этому вы можете решить как проблему с пространством, так и проблему охлаждения для установки 4x RTX 3090 с помощью одного простого решения.

Рис. 5. 4 графических процессора с расширителями PCIe. Это похоже на беспорядок, но очень эффективно для охлаждения. Я использовал эту установку в течение 2 лет, и охлаждение отличное, несмотря на проблемные графические процессоры RTX 2080 Ti Founders Edition.

3-слотовый дизайн и проблемы с питанием

RTX 3090 — это 3-слотовый графический процессор, поэтому его нельзя будет использовать в 4-кратной конфигурации с вентилятором по умолчанию от NVIDIA. Это отчасти оправдано, потому что он работает с TDP 350 Вт, и его будет сложно охлаждать в настройке с несколькими графическими процессорами и двумя слотами. RTX 3080 лишь немного лучше при 320 Вт TDP, и охлаждение установки 4x RTX 3080 также будет очень сложно.

Также сложно запитать систему 4x 350 Вт = 1400 Вт в корпусе 4x RTX 3090. Блоки питания (БП) на 1600 Вт легко доступны, но всего 200 Вт для питания процессора и материнской платы может быть слишком мало.Максимальная мощность компонентов используется только в том случае, если компоненты используются полностью, а при глубоком обучении ЦП обычно находится только при слабой нагрузке. При этом блок питания мощностью 1600 Вт может неплохо работать со сборкой 4x RTX 3080, но для сборки 4x RTX 3090 лучше искать блоки питания с высокой мощностью (+ 1700 Вт). Некоторые из моих последователей добились больших успехов в криптомайнинге блоков питания — посмотрите в разделе комментариев для получения дополнительной информации об этом. В противном случае важно отметить, что не все розетки поддерживают блоки питания мощностью более 1600 Вт, особенно в США.По этой причине в США в настоящее время на рынке нет стандартного настольного блока питания мощностью более 1600 Вт. Если вы получаете сервер или блоки питания для крипто-майнинга, остерегайтесь форм-фактора — убедитесь, что он умещается в корпусе вашего компьютера.

Ограничение мощности: элегантное решение проблемы питания?

На графических процессорах можно установить ограничение мощности. Таким образом, вы сможете программно установить предел мощности RTX 3090 до 300 Вт вместо стандартных 350 Вт. В системе с 4-кратным графическим процессором это экономия 200 Вт, чего может быть достаточно для создания системы 4-кратного RTX 3090 с возможным блоком питания 1600 Вт.Это также помогает поддерживать охлаждение графических процессоров. Таким образом, установка предела мощности может решить две основные проблемы настройки 4x RTX 3080 или 4x RTX 3090, охлаждения и питания, одновременно. Для установки 4x вам по-прежнему нужны эффективные графические процессоры с нагнетателем (и стандартный дизайн может оказаться подходящим для этого), но это решает проблему с блоком питания.

Рис. 6: Снижение предела мощности имеет небольшой охлаждающий эффект. Снижение ограничения мощности RTX 2080 Ti на 50-60 Вт немного снижает температуру, и вентиляторы работают тише.

Вы можете спросить: «Разве это не замедляет работу графического процессора?» Да, но вопрос в том, насколько.Я протестировал систему 4x RTX 2080 Ti, показанную на рисунке 5, при различных ограничениях мощности, чтобы проверить это. Я измерил время для 500 мини-пакетов для BERT Large во время вывода (исключая слой softmax). Я выбираю BERT Large inference, поскольку, по моему опыту, это модель глубокого обучения, которая больше всего нагружает GPU. Таким образом, я ожидал, что ограничение мощности будет самым сильным замедлением для этой модели. Таким образом, указанные здесь замедления, вероятно, близки к максимальному замедлению, которого вы можете ожидать.Результаты показаны на рисунке 7.

Рисунок 7: Измеренное замедление для данного ограничения мощности на RTX 2080 Ti. Измерения представляют собой среднее время обработки 500 мини-партий BERT Large во время логического вывода (исключая слой softmax).

Как видим, установка лимита мощности не сильно влияет на производительность. Ограничение мощности на 50 Вт — более чем достаточно для обработки 4x RTX 3090 — снижает производительность всего на 7%.

GPU Deep Learning Performance

Следующий тест включает в себя не только тесты Tesla A100 и Tesla V100, но я построил модель, которая соответствует этим данным, и четыре различных теста на основе Titan V, Titan RTX, RTX 2080 Ti и RTX 2080 .[1,2,3,4] В обновлении я также учел недавно обнаруженное снижение производительности графических процессоров серии RTX 30. И с тех пор, как я написал этот пост в блоге, у нас появился первый надежный тест компьютерного зрения, подтверждающий мои цифры.

Помимо этого, я масштабировал промежуточные карты, такие как карты RTX 2070, RTX 2060 или Quadro RTX 6000 и 8000, путем интерполяции между этими точками контрольных данных. Обычно в рамках архитектуры графические процессоры масштабируются довольно линейно в отношении потоковых мультипроцессоров и пропускной способности, и моя внутриархитектурная модель основана на этом.

Я собрал только тестовые данные для обучения FP16 смешанной точности, так как считаю, что нет веских причин, почему следует использовать обучение FP32.

Рисунок 8: Нормализованная производительность глубокого обучения графического процессора по сравнению с RTX 2080 Ti.

По сравнению с RTX 2080 Ti, RTX 3090 обеспечивает ускорение в 1,41 раза для сверточных сетей и в 1,35 раза для трансформаторов, при этом цена выпуска выше на 15%. Таким образом, Ampere RTX 30 дает существенное улучшение по сравнению с серией Turing RTX 20 по чистой производительности, а также является рентабельным (если вам не нужно обновлять блок питания и т. Д.).

Производительность глубокого обучения графического процессора на доллар

Какой графический процессор дает вам максимальную отдачу от вложенных средств? Это зависит от стоимости всей системы. Если у вас дорогая система, имеет смысл инвестировать в более дорогие графические процессоры.

Здесь у меня есть три сборки PCIe 3.0, которые я использую в качестве базовой стоимости для систем с 2/4 GPU. Я беру эти базовые затраты и добавляю к ним затраты на GPU. Стоимость GPU — это среднее значение затрат на GPU на Amazon и eBay. Для новых графических процессоров Ampere я использую только отпускную цену.Вместе со значениями производительности, указанными выше, это дает значения производительности в расчете на доллар для этих систем графических процессоров. Для системы с 8 GPU я использую barebone-систему Supermicro — отраслевой стандарт для серверов RTX — в качестве базовой стоимости. Обратите внимание, что эти гистограммы не учитывают требования к памяти. Вы должны сначала подумать о своих требованиях к памяти, а затем искать лучший вариант в таблице. Вот несколько ориентировочных рекомендаций для памяти:

  • Использование предварительно обученных трансформаторов; обучение небольшого трансформатора с нуля> = 11 ГБ
  • Обучение большого трансформатора или сверточных сетей в исследованиях / производстве:> = 24 ГБ
  • Создание прототипов нейронных сетей (трансформаторных или сверточных сетей)> = 10 ГБ
  • Соревнования Kaggle> = 8 ГБ
  • Применение компьютерного зрения> = 10 ГБ
  • Нейронные сети для видео: 24 ГБ
  • Обучение с подкреплением = 10 ГБ + мощный рабочий стол с глубоким обучением — самый большой процессор Threadripper или EPYC, который вы можете себе позволить.
Рисунок 9: Нормализованная производительность глубокого обучения на доллар относительно RTX 3080. Рисунок 10: Нормализованная производительность глубокого обучения на 4 GPU на доллар относительно RTX 3080 Рисунок 11. Нормализованная 8-GPU производительность глубокого обучения на доллар доллар относительно RTX 3080

Рекомендации по графическому процессору

Первое, что нужно еще раз подчеркнуть: если вы выбираете графический процессор, вам необходимо убедиться, что в нем достаточно памяти для того, что вы хотите делать. Шаги для выбора лучшего графического процессора для глубокого обучения должны быть следующими:

  1. Что я хочу делать с графическим процессором: соревнования Kaggle, машинное обучение, обучение глубокому обучению, взлом небольших проектов (GAN-fun или big языковые модели?), проводите исследования в области компьютерного зрения / обработки естественного языка / в других областях или в чем-то еще?
  2. Сколько памяти мне нужно для того, что я хочу делать?
  3. Воспользуйтесь приведенными выше диаграммами стоимости / производительности, чтобы определить, какой графический процессор лучше всего подходит для вас, который соответствует критериям памяти.
  4. Есть ли дополнительные предостережения в отношении выбранного мной графического процессора? Например, если это RTX 3090, могу ли я установить его в свой компьютер? Достаточно ли мощности моего блока питания (БП) для поддержки моих графических процессоров? Будет ли проблема с отводом тепла, или можно как-то эффективно охладить графический процессор?

Некоторые из этих деталей требуют от вас размышлений о том, что вы хотите, и, возможно, небольшого исследования того, сколько памяти у графических процессоров, которую другие люди используют для вашей области интересов. Я могу дать вам некоторые рекомендации, но я не могу здесь охватить все области.

Когда мне нужно> = 11 ГБ памяти?

Я уже упоминал, что у вас должно быть не менее 11 ГБ памяти, если вы работаете с трансформаторами, и, что еще лучше,> = 24 ГБ памяти, если вы исследуете трансформаторы. Это связано с тем, что большинство предыдущих предварительно обученных моделей имеют довольно высокие требования к памяти, и эти модели были обучены как минимум с помощью графических процессоров RTX 2080 Ti с 11 ГБ памяти. Таким образом, размер менее 11 ГБ может создавать сценарии, в которых сложно запускать определенные модели.

Другими областями, требующими большого объема памяти, являются любые медицинские изображения, некоторые современные модели компьютерного зрения, все с очень большими изображениями (GAN, передача стилей).

В целом, если вы стремитесь создавать модели, которые дадут вам преимущество в конкуренции, будь то исследования, промышленность или конкуренция Kaggle, дополнительная память предоставит вам возможное преимущество.

Когда меньше 11 ГБ памяти?

RTX 3070 и RTX 3080 — мощные карты, но им не хватает памяти.Однако для многих задач такой объем памяти не требуется.

RTX 3070 идеально подходит, если вы хотите изучить глубокое обучение. Это так, потому что базовым навыкам обучения большинству архитектур можно научиться, просто немного уменьшив их масштаб или используя входные изображения немного меньшего размера. Если бы я снова изучил глубокое обучение, я бы, вероятно, использовал одну RTX 3070 или даже несколько, если бы у меня были свободные деньги.

RTX 3080 в настоящее время является самой экономичной картой и поэтому идеально подходит для прототипирования.Для прототипирования вам нужна самая большая память, которая по-прежнему стоит дешево. Под прототипированием я имею в виду создание прототипов в любой области: исследования, конкурентный Kaggle, взлом идей / моделей для стартапа, эксперименты с исследовательским кодом. Для всех этих приложений RTX 3080 — лучший графический процессор.

Предположим, я возглавлю исследовательскую лабораторию / стартап. Я бы вложил 66-80% своего бюджета в машины RTX 3080 и 20-33% на «развернутые» машины RTX 3090 с надежной системой водяного охлаждения. Идея заключается в том, что RTX 3080 намного более экономичен и может использоваться совместно с помощью кластера slurm в качестве машин для создания прототипов.Поскольку прототипирование должно выполняться гибко, оно должно выполняться с меньшими моделями и меньшими наборами данных. RTX 3080 идеально подходит для этого. Как только студенты / коллеги получат отличный прототип модели, они могут развернуть прототип на машинах RTX 3090 и масштабировать его до более крупных моделей.

Как мне поместить модели +24 ГБ в память 10 ГБ?

Это немного противоречиво, что я только что сказал, если вы хотите обучать большие модели, вам нужно много памяти, но мы много боролись с большими моделями с момента натиска BERT, и существуют решения для обучения моделей 24 ГБ за 10 ГБ памяти.Если у вас нет денег или чего-либо, чтобы избежать проблем с охлаждением / питанием RTX 3090, вы можете получить RTX 3080 и просто согласиться с тем, что вам нужно выполнить дополнительное программирование, добавив методы экономии памяти. Существует достаточно техник, чтобы заставить его работать, и они становятся все более и более обычными.

Вот лишь список распространенных методов:

  • Обучение FP16 / BF16 (вершина)
  • Контрольная точка градиента (сохранить только некоторые активации и пересчитать их в обратном проходе)
  • Обмен памяти между GPU и CPU (своп уровни, не требующиеся для ЦП; поменяйте их вовремя для обратного распространения)
  • Параллелизм моделей (каждый графический процессор содержит часть каждого уровня; поддерживается fairseq)
  • Конвейерный параллелизм (каждый графический процессор содержит пару уровней сеть)
  • ZeRO-параллелизм (каждый GPU содержит частичные слои)
  • 3D-параллелизм (Модель + конвейер + ZeRO)
  • Состояние оптимизатора ЦП (сохранение и обновление Adam / Momentum на ЦП во время следующего прямого прохода GPU)

Если вы не боитесь немного повозиться и реализовать некоторые из этих методов — что обычно означает интеграцию поддерживающих их пакетов с вашим кодом — вы сможете разместить эту большую сеть на 24 ГБ на меньшем графическом процессоре.С таким хакерским духом RTX 3080 или любой графический процессор с объемом памяти менее 11 ГБ может стать для вас отличным графическим процессором.

Стоит ли обновление графического процессора RTX 20 до RTX 30? Или мне ждать следующего GPU?

На вашем месте я бы дважды подумал о переходе с графического процессора RTX 20 на графический процессор RTX 30. Возможно, вы захотите получить на 30% более быстрое обучение или около того, но решить все другие проблемы с графическим процессором RTX 30 может оказаться большой головной болью. Блок питания, охлаждение, вам нужно продать старые графические процессоры.Оно того стоит?

Могу представить, нужна ли вам эта дополнительная память, например, для перехода с RTX 2080 Ti на RTX 3090, или если вам нужен огромный прирост производительности, скажем, с RTX 2060 на RTX 3080, тогда это того стоит. . Но если вы останетесь «в своей лиге», то есть переходите с Titan RTX на RTX 3090 или с RTX 2080 Ti на RTX 3080, вряд ли это того стоит. Вы получите немного производительности, но у вас будут проблемы с блоком питания и охлаждением, и вы будете легче на большую часть денег.Не думаю, что оно того стоит. Я бы подождал, пока не выйдет лучшая альтернатива памяти GDDR6X. Это заставит графические процессоры потреблять меньше энергии и даже может сделать их быстрее. Может быть, подождать год и посмотреть, как с тех пор изменился ландшафт.

Стоит отметить, что технологии в любом случае замедляются. Таким образом, ожидание в течение года может дать вам графический процессор, который будет оставаться актуальным более 5 лет. Придет время, когда можно будет производить дешевую память HBM. Если это время придет, и вы купите этот графический процессор, и вы, вероятно, останетесь на нем более 7 лет.Такие графические процессоры могут появиться через 3-4 года. Таким образом, игра в ожидание может быть довольно разумным выбором.

Общие рекомендации

В целом серия RTX 30 очень мощная, и я рекомендую эти графические процессоры. Помните о памяти, как обсуждалось в предыдущем разделе, а также о требованиях к питанию и охлаждению. Если у вас есть один слот PCIe между графическими процессорами, охлаждение не будет проблемой. В противном случае, с картами RTX 30, убедитесь, что вы получаете водяное охлаждение, удлинители PCIe или эффективные карты с вентилятором (данные в ближайшие недели покажут, что конструкция вентилятора NVIDIA соответствует требованиям).

В общем, я бы рекомендовал RTX 3090 всем, кто может себе это позволить. Он будет служить вам не только сейчас, но и будет очень эффективной картой в ближайшие 3-7 лет. Таким образом, это хорошее вложение, которое останется сильным. Маловероятно, что память HBM станет дешевой в течение трех лет, поэтому следующий графический процессор будет примерно на 25% лучше, чем RTX 3090. Мы, вероятно, увидим дешевую память HBM через 3-5 лет, поэтому после этого вы определенно захотите Обновить.

Для аспирантов, тех, кто хочет стать аспирантом или тех, кто начинает работать со степенью доктора философии, я рекомендую графические процессоры RTX 3080 для создания прототипов и графические процессоры RTX 3090 для развертывания.Если в вашем отделе есть кластер GPU, я настоятельно рекомендую кластер Slurm GPU с 8 машинами GPU. Однако, поскольку охлаждение графических процессоров RTX 3080 в конфигурации сервера с 8-кратным графическим процессором вызывает сомнения, маловероятно, что вы сможете их запустить. Если охлаждение работает, я бы порекомендовал 66-80% графических процессоров RTX 3080, а остальные графические процессоры были либо RTX 3090, либо Tesla A100. Если охлаждение не работает, я бы рекомендовал 66-80% RTX 2080, а остальное — Tesla A100. Опять же, очень важно, чтобы вы позаботились о проблемах с нагревом на ваших серверах с графическим процессором, прежде чем переходить к конкретным графическим процессорам для своих серверов.Подробнее о кластерах GPU ниже.

Если у вас несколько RTX 3090, убедитесь, что вы выбрали решения, которые гарантируют достаточное охлаждение и мощность. Я буду обновлять сообщение в блоге об этом, поскольку все больше и больше данных накапливаются в том, что является правильной настройкой.

Для тех, у кого нет строго конкурентных требований (исследования, соревновательные Kaggle, конкурентоспособные стартапы), я бы порекомендовал по порядку: использованный RTX 2080 Ti, использованный RTX 2070, новый RTX 3080, новый RTX 3070. Если вам не нравятся использованные карты, но RTX 3080.Если вы не можете позволить себе RTX 3080, выбирайте RTX 3070. Все эти карты являются очень экономичными решениями и обеспечат быстрое обучение большинства сетей. Если вы используете правильные трюки с памятью и хорошо разбираетесь в дополнительном программировании, теперь есть достаточно уловок, чтобы сделать нейронную сеть объемом 24 ГБ в 10 ГБ GPU. Таким образом, если вы принимаете некоторую неопределенность и дополнительное программирование, RTX 3080 также может быть лучшим выбором по сравнению с RTX 3090, поскольку производительность у этих карт примерно одинакова.

Если ваш бюджет ограничен, а RTX 3070 слишком дорога, подержанная RTX 2070 стоит около 260 долларов на eBay. Пока неясно, будет ли RTX 3060, но если у вас ограниченный бюджет, возможно, стоит подождать еще немного. Если цена аналогична RTX 2060 и GTX 1060, вы можете рассчитывать на цену от 250 до 300 долларов и довольно высокую производительность.

Если ваш бюджет ограничен, но вам все еще нужен большой объем памяти, то старые бывшие в употреблении карты Tesla или Quadro с eBay могут быть лучшими для вас.Quadro M6000 имеет 24 ГБ памяти и продается на eBay за 400 долларов. Tesla K80 имеет графический процессор 2-в-1 с 2x 12 ГБ памяти примерно за 200 долларов. Эти карты медленные по сравнению с более современными картами, но дополнительная память может пригодиться для конкретных проектов, где память имеет первостепенное значение.

Рекомендации для кластеров графических процессоров

Конструкция кластеров графических процессоров сильно зависит от использования. Для системы на +1 024 GPU сетевое взаимодействие имеет первостепенное значение, но если пользователи используют не более 32 GPU одновременно в такой системе, вкладывать средства в мощную сетевую инфраструктуру — пустая трата.Здесь я бы пошел с аналогичными рассуждениями о прототипировании и развертывании, как упоминалось в случае RTX 3080 vs RTX 3090.

Как правило, использование карт RTX в центрах обработки данных запрещено лицензионным соглашением CUDA. Однако часто университеты могут получить освобождение от этого правила. По этому поводу стоит связаться с кем-нибудь из NVIDIA, чтобы попросить об освобождении. Если вам разрешено использовать карты RTX, я бы порекомендовал стандартные системы графических процессоров Supermicro 8 с графическими процессорами RTX 3080 или RTX 3090 (если можно обеспечить достаточное охлаждение).Небольшой набор из 8 узлов A100 обеспечивает эффективное «развертывание» после прототипирования, особенно если нет гарантии, что серверы 8x RTX 3090 могут быть достаточно охлаждены. В этом случае я бы порекомендовал A100 вместо RTX 6000 / RTX 8000, потому что A100 довольно экономичен и рассчитан на будущее.

Если вы хотите обучить обширные сети на кластере графических процессоров (+256 графических процессоров), я бы порекомендовал систему NVIDIA DGX SuperPOD с графическими процессорами A100. В масштабе +256 GPU сетевое взаимодействие становится первостепенным. Если вы хотите масштабироваться до более чем 256 графических процессоров, вам нужна высокооптимизированная система, и объединение стандартных решений больше не помогает.

Единственными конкурентоспособными решениями на рынке, особенно в масштабе +1024 графических процессоров, являются Google TPU Pod и NVIDIA DGX SuperPod. В таком масштабе я бы предпочел Google TPU Pod, поскольку их сетевая инфраструктура, созданная на заказ, кажется, превосходит систему NVIDIA DGX SuperPod, хотя обе системы довольно близки друг к другу. Система графического процессора предлагает немного большую гибкость моделей и приложений глубокого обучения по сравнению с системой TPU, в то время как система TPU поддерживает более крупные модели и обеспечивает лучшее масштабирование.Таким образом, обе системы имеют свои преимущества и недостатки.

Не покупайте эти графические процессоры

Я не рекомендую покупать несколько версий RTX Founders Edition (любых) или RTX Titans, если у вас нет расширителей PCIe для решения их проблем с охлаждением. Они просто будут слишком горячими, и их производительность будет намного ниже, чем я сообщаю в диаграммах выше. Графические процессоры 4x RTX 2080 Ti Founders Editions легко превысят 90 ° C, снизят частоту ядра и будут работать медленнее, чем графические процессоры RTX 2070 с надлежащим охлаждением.

Я не рекомендую покупать Tesla V100 или A100, если только вы не вынуждены их покупать (политика запрещенных центров обработки данных RTX для компаний) или если вы не хотите обучать очень большие сети на огромном кластере графических процессоров — эти графические процессоры просто не очень дороги эффективный.

Если вы можете позволить себе карты получше, не покупайте карты серии GTX 16. Эти карты не имеют тензорных ядер и, как таковые, обеспечивают относительно низкую производительность глубокого обучения. Я бы предпочел подержанную RTX 2070 / RTX 2060 / RTX 2060 Super, а не карту серии GTX 16.Однако, если у вас мало денег, карты серии GTX 16 могут быть хорошим вариантом.

Когда лучше не покупать новые графические процессоры?

Если у вас уже есть графические процессоры RTX 2080 Tis или лучше, обновление до RTX 3090 может не иметь смысла. Ваши графические процессоры уже довольно хороши, а прирост производительности незначителен по сравнению с беспокойством о блоке питания и проблемах с охлаждением для новых энергоемких карт RTX 30 — просто того не стоит.

Единственная причина, по которой я хотел бы перейти с 4x RTX 2080 Ti на 4x RTX 3090, — это если я буду исследовать огромные трансформаторы или другое обучение сети, зависящее от вычислений.Однако, если проблема с памятью, вы можете сначала подумать о некоторых хитростях с памятью, чтобы установить большие модели на 4x RTX 2080 Tis, прежде чем переходить на RTX 3090s.

Если у вас один или несколько графических процессоров RTX 2070, я бы дважды подумал об обновлении. Это довольно хорошие графические процессоры. Однако перепродажа этих графических процессоров на eBay и получение RTX 3090 может иметь смысл, если вы часто обнаруживаете, что ограничены 8 ГБ памяти. Это рассуждение справедливо и для многих других графических процессоров: если памяти мало, обновление будет правильным.

Вопросы и ответы и заблуждения

Резюме:

  • PCIe 4.0 и PCIe не имеют значения в конфигурациях 2x GPU. Для конфигураций с 4х GPU они все равно не имеют большого значения.
  • RTX 3090 и RTX 3080 охлаждение будет проблематичным. Используйте карты с водяным охлаждением или удлинители PCIe.
  • NVLink бесполезен. Полезно только для кластеров GPU.
  • Вы можете использовать разные типы графических процессоров на одном компьютере (например, GTX 1080 + RTX 2080 + RTX 3090), но вы не сможете эффективно распараллеливать их.
  • Вам понадобится сеть Infiniband + 50 Гбит / с, чтобы распараллелить обучение на более чем двух машинах.
  • процессоры AMD дешевле, чем процессоры Intel; У процессоров Intel почти нет преимущества.
  • Несмотря на героические усилия по разработке программного обеспечения, AMD GPU + ROCm, вероятно, не сможет конкурировать с NVIDIA из-за отсутствия сообщества и эквивалента Tensor Core в течение как минимум 1-2 лет.
  • Облачные графические процессоры полезны, если вы используете их менее 1 года. После этого десктоп — более дешевое решение.

Нужен ли мне PCIe 4.0?

Как правило, нет. PCIe 4.0 отлично подходит, если у вас есть кластер графического процессора.Это нормально, если у вас есть машина с 8-кратным графическим процессором, но в остальном это не дает много преимуществ. Это обеспечивает лучшее распараллеливание и немного более быструю передачу данных. Передача данных не является узким местом ни в одном приложении. В компьютерном зрении в конвейере передачи данных узким местом может быть хранилище данных, но не передача PCIe от центрального процессора к графическому процессору. Так что для большинства людей нет реальной причины устанавливать PCIe 4.0. Преимущества будут, возможно, на 1-7% лучшем распараллеливании при установке 4 GPU.

Нужны ли мне линии PCIe 8x / 16x?

То же, что и с PCIe 4.0 — вообще нет. Дорожки PCIe необходимы для распараллеливания и быстрой передачи данных, что редко бывает узким местом. Работа графических процессоров на 4х полосах — это нормально, особенно если у вас всего 2 графических процессора. Для настройки с 4 графическими процессорами я бы предпочел 8 полос на каждый графический процессор, но использование их на 4 полосах, вероятно, снизит производительность только примерно на 5-10%, если вы распараллеливаете все 4 графических процессора.

Как мне установить 4x RTX 3090, если они занимают 3 слота PCIe каждый?

Вам нужен один из двухслотовых вариантов, или вы можете попробовать разложить их с помощью расширителей PCIe.Кроме места, сразу стоит подумать об охлаждении и подходящем БП. Кажется, наиболее управляемым решением будет установка 4x RTX 3090 EVGA Hydro Copper с индивидуальным контуром водяного охлаждения. Это сохранит карты очень крутыми. EVGA в течение многих лет производила версии графических процессоров с гидро-медью, и я считаю, что вы можете доверять качеству их графических процессоров с водяным охлаждением. Хотя могут быть и другие варианты, которые дешевле.

PCIe-расширители также могут решить проблемы как с пространством, так и с охлаждением, но вам необходимо убедиться, что в вашем корпусе достаточно места для размещения графических процессоров.Убедитесь, что ваши удлинители PCIe достаточно длинные!

Как мне охладить 4x RTX 3090 или 4x RTX 3080?

См. Предыдущий раздел.

Могу ли я использовать несколько графических процессоров с разными типами графических процессоров?

Да, можно! Но вы не можете эффективно распараллеливать графические процессоры разных типов. Я мог себе представить, что 3x RTX 3070 + 1 RTX 3090 могут иметь смысл для разделения прототипирования и развертывания. С другой стороны, распараллеливание между 4-мя графическими процессорами RTX 3070 было бы очень быстрым, если бы вы могли приспособить модель к этим графическим процессорам.Я могу придумать еще одну причину, по которой вы хотите это сделать, — это то, собираетесь ли вы использовать свои старые графические процессоры. Это работает нормально, но распараллеливание между этими графическими процессорами будет неэффективным, поскольку самый быстрый графический процессор будет ждать, пока самый медленный графический процессор не догонит точку синхронизации (обычно обновление градиента).

Что такое NVLink и насколько он полезен?

Как правило, NVLink бесполезен. NVLink — это высокоскоростное соединение между графическими процессорами. Это полезно, если у вас есть кластер GPU с +128 GPU.В противном случае он почти не дает преимуществ по сравнению со стандартными передачами PCIe.

Денег не хватает даже на самые дешевые видеокарты, которые вы рекомендуете. Что я могу сделать?

Обязательно купите бывшие в употреблении графические процессоры. Подержанные RTX 2070 (400 долларов) и RTX 2060 (300 долларов) великолепны. Если вы не можете себе этого позволить, следующий лучший вариант — попытаться получить подержанный GTX 1070 (220 долларов США) или GTX 1070 Ti (230 долларов США). Если это слишком дорого, подержанный GTX 980 Ti (6 ГБ, 150 долларов) или подержанный GTX 1650 Super (190 долларов). Если это слишком дорого, лучше использовать бесплатные облачные сервисы GPU.Обычно они предоставляли графический процессор на ограниченное количество времени / кредитов, после чего вам нужно было заплатить. Переключайтесь между сервисами и аккаунтами, пока не сможете позволить себе собственный графический процессор.

Каков углеродный след графических процессоров? Как я могу использовать графические процессоры, не загрязняя окружающую среду?

Я построил калькулятор углерода для расчета вашего углеродного следа для ученых (углерод от перелетов до конференций + время на GPU). Калькулятор также можно использовать для расчета чистого углеродного следа графического процессора. Вы обнаружите, что графические процессоры производят гораздо больше углерода, чем международные рейсы.Таким образом, вы должны убедиться, что у вас есть зеленый источник энергии, если вы не хотите иметь астрономический углеродный след. Если в нашем районе нет поставщиков электроэнергии, обеспечивающих экологически чистую энергию, лучший способ — это покупка компенсации за выбросы углерода. Многие люди скептически относятся к компенсации выбросов углерода. Они работают? Это мошенничество?

Я считаю, что в этом случае скептицизм просто ранит, потому что бездействие будет более вредным, чем риск быть обманутым. Если вы беспокоитесь о мошенничестве, просто инвестируйте в портфель компенсаций, чтобы минимизировать риск.

Я работал над проектом по компенсации выбросов углерода около десяти лет назад. Компенсация углерода была произведена за счет сжигания метана, вытекающего из шахт в Китае. Должностные лица ООН отслеживали этот процесс и потребовали чистых цифровых данных и физического осмотра объекта. В этом случае произведенные компенсации углерода были очень надежными. Я считаю, что многие другие проекты имеют аналогичные стандарты качества.

Что мне нужно для распараллеливания на двух машинах?

Если вы хотите быть в безопасности, вы должны получить сетевые карты со скоростью не менее + 50 Гбит / с, чтобы получить ускорение, если вы хотите распараллеливать машины.Я рекомендую установить как минимум EDR Infiniband, то есть сетевую карту с пропускной способностью не менее 50 ГБит / с. Две карты EDR с кабелем стоят около 500 долларов на eBay.

В некоторых случаях вы можете обойтись без Ethernet 10 Гбит / с, но обычно это справедливо только для специальных сетей (определенных сверточных сетей) или если вы используете определенные алгоритмы (Microsoft DeepSpeed).

Подходит ли функция умножения разреженных матриц для разреженных матриц в целом?

Не похоже.Поскольку степень детализации разреженной матрицы должна иметь 2 элемента с нулевым значением, каждые 4 элемента, разреженные матрицы должны быть достаточно структурированными. Возможно, можно немного изменить алгоритм, что предполагает объединение 4 значений в сжатое представление 2 значений, но это также означает, что точное произвольное умножение разреженных матриц невозможно с графическими процессорами Ampere.

Нужен ли мне процессор Intel для работы с несколькими графическими процессорами?

Я не рекомендую процессоры Intel, если вы не используете их в соревнованиях Kaggle (тяжелая линейная алгебра на процессоре).Но даже для соревнований Kaggle процессоры AMD по-прежнему хороши. Процессоры AMD дешевле и лучше, чем процессоры Intel в целом для глубокого обучения. Для построенного 4-кратного графического процессора моим центральным процессором был бы Threadripper. Мы создали десятки систем в нашем университете с помощью Threadrippers, и все они отлично работают — пока никаких жалоб. Для систем с 8-кратным графическим процессором я обычно выбираю процессоры, с которыми у вашего поставщика есть опыт. Надежность ЦП и PCIe / системы более важна в системах 8x, чем прямая производительность или прямая рентабельность.

Имеет ли значение дизайн корпуса компьютера для охлаждения?

Нет. Графические процессоры обычно отлично охлаждаются, если между графическими процессорами есть хотя бы небольшой зазор. Дизайн корпуса даст вам температуру на 1-3 градуса выше, а пространство между графическими процессорами — на 10-30 градусов тепла. В итоге, если у вас есть пространство между графическими процессорами, охлаждение не имеет значения. Если у вас нет места между графическими процессорами, вам нужна подходящая конструкция кулера (нагнетательный вентилятор) или другое решение (водяное охлаждение, удлинители PCIe), но в любом случае конструкция корпуса и вентиляторы не имеют значения.

Догонят ли графические процессоры AMD + ROCm когда-либо графические процессоры NVIDIA + CUDA?

Не в ближайшие 1-2 года. Это трехсторонняя проблема: тензорные ядра, программное обеспечение и сообщество.

Графические процессоры AMD великолепны с точки зрения чистого кремния: отличная производительность FP16, отличная пропускная способность памяти. Однако из-за отсутствия тензорных ядер или эквивалентных им производительность глубокого обучения ниже, чем у графических процессоров NVIDIA. Упакованная математика низкой точности не справляется. Без этой аппаратной функции графические процессоры AMD никогда не будут конкурентоспособными.По слухам, в 2020 году планируется выпустить некую карту центра обработки данных с эквивалентом Tensor Core, но с тех пор новых данных не появилось. Наличие карт для центров обработки данных с эквивалентом Tensor Core также означает, что немногие смогут позволить себе такие графические процессоры AMD, что даст NVIDIA конкурентное преимущество.

Допустим, AMD представит аппаратную функцию, подобную Tensor-Core, в будущем. Тогда многие люди скажут: «Но нет программного обеспечения, которое работает с графическими процессорами AMD! Как я должен их использовать? » В основном это заблуждение.Программное обеспечение AMD через ROCm прошло долгий путь, а поддержка через PyTorch превосходна. Хотя я не видел много отчетов об опыте использования графических процессоров AMD + PyTorch, все программные функции интегрированы. Похоже, если вы выберете любую сеть, у вас все будет хорошо, если вы запустите ее на графических процессорах AMD. Так что здесь AMD прошла долгий путь, и этот вопрос более-менее решен.

Однако, если решить проблему программного обеспечения и нехватки тензорных ядер, у AMD все еще будет проблема: отсутствие сообщества. Если у вас возникла проблема с графическими процессорами NVIDIA, вы можете найти ее в Google и найти решение.Это вызывает большое доверие к графическим процессорам NVIDIA. У вас есть инфраструктура, которая упрощает использование графических процессоров NVIDIA (работает любая среда глубокого обучения, любая научная задача хорошо поддерживается). У вас есть хитрости и уловки, которые упрощают использование графических процессоров NVIDIA (например, Apex). Вы можете найти экспертов по графическим процессорам NVIDIA и программированию за каждым углом, в то время как я знал гораздо меньше экспертов по графическим процессорам AMD.

С точки зрения сообщества AMD немного похожа на Julia vs Python. У Джулии большой потенциал, и многие справедливо сказали бы, что это лучший язык программирования для научных вычислений.Тем не менее, Julia почти не используется по сравнению с Python. Это потому, что сообщество Python очень сильно. Numpy, SciPy, Pandas — это мощные программные пакеты, вокруг которых собирается большое количество людей. Это очень похоже на проблему NVIDIA vs AMD.

Таким образом, вполне вероятно, что AMD не догонит, пока не будет представлен эквивалент Tensor Core (от 1/2 до 1 года?) И сильное сообщество не будет построено вокруг ROCm (2 года?). AMD всегда будет отнимать часть доли рынка в определенных подгруппах (например,, майнинг криптовалюты, дата-центры). Тем не менее, в области глубокого обучения NVIDIA, вероятно, сохранит монополию еще как минимум на пару лет.

Когда лучше использовать облако по сравнению с выделенным рабочим столом / сервером с графическим процессором?

Практическое правило: если вы планируете проводить глубокое обучение дольше года, дешевле приобрести графический процессор для настольных ПК. В противном случае облачные экземпляры предпочтительнее, если у вас нет обширных навыков облачных вычислений и вы не хотите пользоваться преимуществами увеличения и уменьшения количества графических процессоров по желанию.

Точный момент времени, когда облачный графический процессор стоит дороже, чем настольный компьютер, в значительной степени зависит от службы, которую вы используете, и лучше всего самостоятельно выполнить небольшую математику. Ниже я делаю пример расчета для спотового экземпляра AWS V100 с 1x V100 и сравниваю его со стоимостью настольного компьютера с одним RTX 3090 (аналогичная производительность). Настольный компьютер с RTX 3090 стоит 2200 долларов (2-GPU barebone + RTX 3090). Кроме того, если вы находитесь в США, за электроэнергию взимается дополнительная плата в размере 0,12 доллара США за кВтч.Для сравнения, для инстанса AWS по требованию цена составляет 2,14 доллара в час.

При использовании 15% в год настольный компьютер использует:

(350 Вт (GPU) + 100 Вт (CPU)) * 0,15 (загрузка) * 24 часа * 365 дней = 591 кВтч в год

Таким образом, 591 кВтч из электричество в год, то есть дополнительно 71 доллар.

Точка безубыточности для настольного компьютера по сравнению с облачным экземпляром при использовании 15% (вы используете облачный экземпляр 15% времени в течение дня) составит около 300 дней (2311 долларов против 2270 долларов):

2 доллара.14 / ч * 0,15 (использование) * 24 часа * 300 дней = 2311 долл. США

Поэтому, если вы планируете запускать модели глубокого обучения через 300 дней, лучше купить настольный компьютер вместо использования инстансов AWS по требованию.

Спотовые инстансы

AWS немного дешевле — около 0,9 доллара в час. Однако многие пользователи Twitter говорили мне, что инстансы по требованию — это кошмар, а точечные инстансы — это ада . Сам AWS указывает, что средняя частота прерывания работы спотовых инстансов V100 GPU превышает 20%.Это означает, что вам нужна довольно хорошая инфраструктура управления спотовыми инстансами, чтобы оправдать использование спотовых инстансов. Но если он у вас есть, спотовые инстансы AWS и аналогичные сервисы довольно конкурентоспособны. Вам необходимо владеть и запускать настольный компьютер в течение 20 месяцев, чтобы он работал даже по сравнению со спотовыми инстансами AWS. Это означает, что если вы планируете запускать рабочие нагрузки глубокого обучения в ближайшие 20 месяцев, настольный компьютер будет дешевле (и проще в использовании).

Вы можете выполнить аналогичные вычисления для любой облачной службы, чтобы принять решение, выберете ли вы облачную службу или настольный компьютер.

Общие коэффициенты использования следующие:

  • Персональный рабочий стол аспиранта: <15%
  • Кластер ГП для аспиранта:> 35%
  • Кластер по исследованию slurm в масштабах всей компании:> 60%

В целом коэффициент использования ставки ниже для профессий, где размышление о передовых идеях важнее, чем разработка практических продуктов. В некоторых областях коэффициент использования низкий (исследования интерпретируемости), в то время как в других областях коэффициент использования намного выше (машинный перевод, языковое моделирование).В целом, использование персональных машин почти всегда переоценивается. Обычно коэффициент использования большинства персональных систем составляет 5-10%. Вот почему я настоятельно рекомендую кластеры slurm GPU для исследовательских групп и компаний вместо отдельных настольных компьютеров с GPU.

TL; DR advice

Лучший графический процессор в целом : RTX 3080 и RTX 3090.

Графические процессоры, которых следует избегать (в отдельности) : любая карта Tesla; любая карта Quadro; любая карта Founders Edition; Titan RTX, Titan V, Titan XP.

Экономично, но дорого : RTX 3080.

Экономично и дешево : RTX 3070, RTX 2060 Super

У меня мало денег : Купите старые карты. Иерархия: RTX 2070 (400 долларов), RTX 2060 (300 долларов), GTX 1070 (220 долларов), GTX 1070 Ti (230 долларов), GTX 1650 Super (190 долларов), GTX 980 Ti (6 ГБ, 150 долларов).

У меня почти нет денег : Есть много стартапов, которые продвигают свои облака: используйте бесплатные облачные кредиты и меняйте учетные записи компаний, пока вы не сможете позволить себе графический процессор.

Я использую Kaggle: RTX 3070.

Я конкурент компьютерного зрения, предварительного обучения или исследователя машинного перевода : 4x RTX 3090. Подождите, пока не будут подтверждены рабочие сборки с хорошим охлаждением и достаточной мощностью (я обновлю это сообщение в блоге).

Я исследователь НЛП. : Если вы не работаете над машинным переводом, языковым моделированием или каким-либо предварительным обучением, RTX 3080 будет достаточным и экономичным.

Я начал глубокое обучение и серьезно отношусь к этому : Начните с RTX 3070.Если через 6-9 месяцев вы все еще настроены серьезно, продайте свой RTX 3070 и купите 4x RTX 3080. В зависимости от того, какую область вы выберете следующей (запуск, Kaggle, исследования, прикладное глубокое обучение), продайте свои графические процессоры и купите что-то более подходящее после около трех лет (графические процессоры RTX 40s следующего поколения).

Я хочу попробовать глубокое обучение, но не отношусь к этому серьезно. : RTX 2060 Super превосходен, но может потребоваться новый блок питания. Если на вашей материнской плате есть слот PCIe x16 и у вас есть блок питания мощностью около 300 Вт, GTX 1050 Ti — отличный вариант, поскольку для работы с настольным компьютером не требуются другие компоненты компьютера.

Кластер графических процессоров, используемый для параллельных моделей с менее чем 128 графическими процессорами: Если вам разрешено покупать графические процессоры RTX для вашего кластера: 66% 8x RTX 3080 и 33% 8x RTX 3090 (только если достаточное охлаждение гарантировано / подтверждено). Если охлаждения RTX 3090s недостаточно, купите 33% графических процессоров RTX 6000 или 8x Tesla A100. Если вам не разрешено покупать графические процессоры RTX, я, вероятно, выбрал бы 8 узлов A100 Supermicro или 8 узлов RTX 6000.

Кластер графических процессоров, используемый для параллельных моделей на 128 графических процессорах: Подумайте о 8x конфигурациях Tesla A100.Если вы используете более 512 графических процессоров, вам следует подумать о приобретении системы DGX A100 SuperPOD, которая соответствует вашим масштабам.

История версий

  • 2020-09-20: Добавлено обсуждение использования ограничения мощности для запуска систем с 4x RTX 3090. Добавлены старые графические процессоры в диаграммы производительности и цены / производительности. Добавлены цифры для умножения разреженных матриц.
  • 07.09.2020: Добавлены графические процессоры серии NVIDIA Ampere. Включено множество полезных деталей о графическом процессоре.
  • 03.04.2019: Добавлены RTX Titan и GTX 1660 Ti.Обновлен раздел TPU. Добавлено обсуждение оборудования для запуска.
  • 26.11.2018: Добавлено обсуждение проблем с перегревом карт RTX.
  • 05.11.2018: Добавлен RTX 2070 и обновлены рекомендации. Обновленные диаграммы с точными данными о производительности. Обновлен раздел TPU.
  • 21.08.2018: Добавлены RTX 2080 и RTX 2080 Ti; переработан анализ производительности
  • 09.04.2017: Добавлен анализ экономической эффективности; обновленная рекомендация с NVIDIA Titan Xp
  • 19 марта 2017 г .: Очищено сообщение в блоге; добавлен GTX 1080 Ti
  • 23.07.2016: добавлены Titan X Pascal и GTX 1060; обновлены рекомендации
  • 25.06.2016: переработан раздел multi-GPU; удален простой раздел памяти нейронной сети как больше не актуальный; расширенная секция сверточной памяти; обрезанный раздел AWS из-за того, что он больше не работает; добавил свое мнение о Xeon Phi; добавлены обновления для серии GTX 1000
  • 20.08.2015: Добавлен раздел для экземпляров AWS GPU; добавлен GTX 980 Ti в сравнение
  • 22.04.2015: GTX 580 больше не рекомендуется; добавлены взаимосвязи производительности между картами
  • 16.03.2015: обновлены рекомендации по GPU: GTX 970 и GTX 580
  • 23.02.2015: обновлены рекомендации по GPU и расчеты памяти
  • 28.09.2014: добавлен акцент на требованиях к памяти CNNs

Благодарности

Я хочу поблагодарить Агрина Хильмкила, Ари Хольцмана, Габриэля Ильхарко, Нам Фо за их превосходные отзывы о текущей версии этого сообщения в блоге.

За прошлые обновления этого сообщения в блоге я хочу поблагодарить Мэта Келси за помощь в отладке и тестировании пользовательского кода для GTX 970; Я хочу поблагодарить Сандера Дилемана за то, что он сообщил мне о недостатках моего совета по памяти GPU для сверточных сетей; Я хочу поблагодарить Ханнеса Бретшнайдера за указание на проблемы с программной зависимостью GTX 580; и я хочу поблагодарить Оливера Гризеля за то, что он указал на решения для ноутбуков для экземпляров AWS.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *