вторник, 2 августа 2016 г.

Досрочно освобожденным насильникам запретили играть в Pokemon GO


Власти штата Нью-Йорк против того, чтобы насильники играли в Pokemon GO.
cf0dcaf1829cc5457b728cab8d2bbca1
Губернатор американского штата Нью-Йорк Энди Куомо поручил запретить отбывшим наказание насильникам играть в популярную игру с дополненной реальностью Pokemon GO. Распоряжение уже опубликовано на сайте губернатора.
Поводом для решения стало обращение двух законодателей штата. Они предупредили, что с помощью игры бывшие преступники могут заманить своих жертв в ловушку.
Защита детей Нью-Йорка является приоритетом номер один. В связи с развитием технологий, мы должны сделать так, чтобы эти достижения не дали опасным преступникам новых возможностей для поиска жертв. — Энди Куомо, губернатор Нью-Йорка
Куомо направил соответствующее поручение в департамент исправительных учреждений. Оно коснется 3 000 заключенных, освобожденных досрочно. Кроме того, губернатор написал письмо в Niantic, Inc., в котором просит разработчиков создать специальные технические ограничения для осужденных за сексуальные преступления. [Governor]

10 коллег по офису из мира покемонов

Игра Pokemon Go хоть официально и не вышла в России, ежедневно мелькает в новостях. Игроки ставят на точки приманки и собираются сотнями. Все кругом ловят покемонов, даже если месяц назад плевались. Редактор «Нетологии» Павел Федоров, давний фанат вселенной покемонов, в юмористической колонке сравнивает типы коллег с покемонами.

Псайдак


Объясняешь, а он не понимает. И делает умный вид. «Ага, всё понял. Да-да, окей». И потом ничего. Потому что не понял. И не переспросил, потому что подумал, что понял, но на самом деле не понял, а понял это слишком поздно.

Слоупок


Все сдают отчет за июнь, а у него уже готов отчет за май. На совещаниях внимательно слушает, а через час вы находите его в пустой переговорке с выключенным светом, увлеченно записывающего услышанное. При встрече с Псайдаком входит в рекурсию, но не сразу.

Какуна


Постоянно в себе. Трудится, вкалывает, но этого никто не замечает, потому что он завернулся в какой-то кокон и долго раскачивается. Коллеги смотрят на него с недоумением. Зато когда такой раздуплится, то выйдет неприятная для окружающих бидрилла, которая тут же показывает мощный результат.

Пикачу


Любимец офисных коллег и всех женщин в округе. Вообще, ему бы уже давно пора развиваться и получать повышение, выучить пару новых движений, но какая-то мифическая сила держит его на месте. Зато на виду, правда всеобщую любовь на хлеб не намажешь.

Дроузи


Он везде. Но бестолковый. Но везде. Но толку от этого нет. Но зато везде. Вообще везде.

Ликитунг


Обычно крутится возле начальника — называет его боссом, случайно оказывается на обеде рядом, заносит пирог от жены, просит быть крёстным новорождённой дочери и на корпоративе сразу занимает место рядом с «шефом».

Дитто


Умеет всё и сразу, занимается всем и всегда. Вечерами льёт слёзы, потому что не понимает, куда себя приложить. А утром возвращается в офис и снова делает всё и сразу.

Иви


Милая стажёрка, за внимание которой борются холостые руководители сразу трёх отделов. В зависимости от её выбора зависит и развитие — может стать как бухгалтером, так и программистом.

Сквиртл


Офисный крутоган. Успешен во всём — от личной жизни до выступления на ежемесячных планёрках. Вы тоже его любите и немного завидуете.

Коффинг


Сидит в уголочке и воняет. То ли сыром, который хранит в тумбочке, то ли потной футболкой, которой накрывает сыр. На обеде разогревает в общей микроволновке самую вонючую еду в мире — сегодня у него квашеная капуста, а завтра рыба.

Google готовит новую оболочку для Nexus 2016 года

Профильный ресурс AndroidPolice получил из нескольких источников сообщение о том, что Google собирается запустить новую оболочку-лаунчер в ближайшее время. Скорее всего, она дебютирует на новых смартфонах Nexus, которые еще только будут представлены официально до конца 2016 года — Marlin и Sailfish от HTC.


Среди изменений, например, шторка со всеми установленными приложениями вытягивается снизу, переработана строка поиска. На домашнем экране приложение Google поиска смещено виджетом календаря, а сам поиск запускается нажатием на значок«G». Голосовой помощник Google Now расположен на крайнем левом рабочем столе и открывается пролистыванием. Меню приложений стало вертикальным, получило строку поиска вверху и не разделено по страницам.


Отметим, что следующие смартфоны Nexus должны работать уже на новой версии Android — Android 7.0 Nougat, что уже само по себе принесет изменения в интерфейс.

Японцы предлагают вырезать дисплеи ножницами

Японский институт NIMS (National Institute for Materials Science) разработал гибкие панели, из которых можно вырезать дисплей нужной пользователю формы с помощью обычных ножниц.

В дисплеях используется металлоорганические полимерные материалы, которые позволяют сделать надрез, не нарушив работоспособность оставшихся частей. Получившимся кусочкам потребуется только несколько секунд, чтобы подстроиться к новой форме и даже сохранят последнюю отображенную информацию при отключении, как электронная бумага.
На данный момент технология позволяет создавать только одноцветные дисплеи с ограниченной областью вывода изображения. Но применение можно придумать даже такой ранней разработке, например, использование интегрированных дисплеев в одежде или умных носимых гаджетах.
В будущем исследователи надеются сделать разработку многоцветной и замахиваются на автомобильные интерьеры, цвет которых пользователь сможет менять под настроение, солнечные очки и просто окна.

понедельник, 1 августа 2016 г.

Samsung Gear Fit2: новое поколение фитнес-браслета, превратившегося в умные часы

В 2014 году компания Samsung выпустила фитнес-браслет Gear Fit. Устройство получилось очень удачным: его главной особенностью был прекрасный изогнутый экран Super AMOLED, а по функциональности гаджет находился между традиционными фитнес-трекерами и полноценными умными часами. Он мог отображать время и уведомления, но не позволял устанавливать сторонние приложения. И вот, два года спустя, южнокорейский производитель без лишнего шума и как-то даже слишком скромно представил вторую версию браслета.
Умный браслет Samsung Gear Fit
Новинка получила название Samsung Gear Fit2 и сохранила концепцию предшественника, равно как и его главную особенность — изогнутый экран. Однако те элементы, которые были добавлены, перевели функциональность Gear Fit2 на принципиально иной уровень. Во-первых, был встроен GPS. Во-вторых, гаджет теперь совместим не только со смартфонами Samsung, но с любыми Android-смартфонами, объем оперативной памяти которых больше 1,5 ГБ, а версия ОС — не ниже 4.4 (следовательно, сюда попадают даже среднебюджетные аппараты). И в-третьих, появилась возможность установки сторонних приложений, а это уже превращает Samsung Gear Fit2 в полноценные умные часы. Но насколько адекватен браслет в роли умных часов? И насколько удачным получилось устройство в целом?
Давайте посмотрим на спецификации новинки.

Технические характеристики Samsung Gear Fit2

  • Экран: сенсорный, изогнутый, Super AMOLED, 1,5″, 432×216, емкостной
  • Защита от воды и пыли: есть (стандарт IP68)
  • Ремешок: съемный
  • Совместимость: устройства Samsung на базе Android 4.4 с объемом оперативной памяти не менее 1,5 ГБ
  • Подключение: Bluetooth 4.0 LE
  • SoC: Samsung Exynos 3250 (два ядра Cortex-A7 @1 ГГц)
  • Оперативная память: 512 МБ
  • Флэш-память: 4 ГБ (из них свободно около 2 ГБ)
  • Датчики: акселерометр, гироскоп, датчик сердечного ритма, GPS, барометр
  • Камеры, интернет: нет
  • Микрофон, динамик: нет
  • Аккумулятор: 200 мА·ч
  • Масса 28 г
Для наглядности давайте сравним характеристики браслета с непосредственным предшественником и некоторыми конкурентами, протестированными нами ранее.
  Samsung Gear Fit2 Samsung Gear Fit Garmin vivoactive HR Sony SmartBand 2 SWR12
Экран сенсорный, цветной, изогнутый, Super AMOLED, 1,5″, 432×216 (317 ppi) сенсорный, цветной, изогнутый, Super AMOLED, 1,84″, 432×128 (240 ppi) сенсорный, цветной, трансрефлективный, OLED, 1,38″, 205×148 (183 ppi) вибросигнал, 3 LED-индикатора
Защита от воды IP68 IP67 5 АТМ IP68
Ремешок съемный, силиконовый съемный, силиконовый съемный, силиконовый съемный, силиконовый
Камера нет нет нет нет
Датчики GPS, акселерометр, барометр, датчик сердечного ритма акселерометр, барометр, датчик сердечного ритма GPS, акселерометр, высотометр, датчик сердечного ритма акселерометр, датчик сердечного ритма
Микрофон, динамик нет нет нет нет
Совместимость Устройства на Android 4.4 и новее с объемом оперативной памяти не менее 1,5 ГБ Устройства Samsung на Android 4.3 и новее Устройства на Android 4.x и новее / iOS 8 и новее / компьютеры на Windows и macOS Устройства на iOS 8.2 / Android 4.4 и новее
Поддержка сторонних приложений есть нет есть есть расширения, позволяющие управлять с браслета различными смартфонными приложениями (только в Android), а также передача данных в сторонние приложения
Масса (г)* 28 28 47,6 25
* по информации производителя
Таблица наглядно демонстрирует главные отличия Gear Fit2 от предшественника. Экран немного уменьшился, и при этом изменилось соотношение сторон: раньше это было примерно 3,5:1, а теперь — 2:1. Про остальное (GPS, совместимость, сторонние приложения) мы упоминали выше. На фоне конкурентов новинка выглядит тоже очень неплохо, но, правда, уступает по совместимости. Samsung упорно не хочет поддерживать iOS в своих носимых гаджетах.
Что ж, перейдем к очному знакомству с устройством!

Комплектация

Коробка выглядит довольно традиционно и не вызывает ни положительных, ни отрицательных эмоций. Ее плюс — в том, что можно не вскрывая ее увидеть сам браслет (по крайней мере, основную его часть).
Док-насадка для умного браслета Samsung Gear Fit
Внутри коробки мы обнаруживаем сам браслет, краткое руководство на русском языке, гарантийный буклет и зарядное устройство, которое надо подключать к USB-выходу или смартфонной зарядке.
Умный браслет Samsung Gear Fit с док-насадкой
Браслет надо положить на него таким образом, чтобы контакты на тыльной стороне корпуса браслета совпали с контактами на зарядном устройстве.
Умный браслет Samsung Gear Fit с док-насадкой
Конечно, можно посетовать, что не сделали беспроводную зарядку, но большой проблемы в этом мы не видим.

Дизайн

Внешний вид браслета в целом унаследовал черты предшественника, однако различий очень много, и все они существенные. И новые цвета (синий и розовый) — далеко не самое значимое (да-да, у нас на тестировании был розовый!).
Умный браслет Samsung Gear FitУмный браслет Samsung Gear Fit
Прежде всего, изменился принцип соединения основного блока с силиконовым ремешком. Раньше ремешок был единым, а блок вставлялся в него. Теперь же ремешок — из двух половинок, которые крепятся к блоку с электроникой с помощью специальных защелок.
Умный браслет Samsung Gear Fit
Пожалуй, это решение менее изящное, да и отсоединять половинки ремешка сложнее. Однако, в повседневной жизни такой необходимости не возникает. Можно предположить, что у производителя были какие-то серьезные основания для того, чтобы изменить дизайн таким образом.
Умный браслет Samsung Gear Fit
Второй момент — форма устройства стала менее вытянутой. Как мы уже писали, экран поменял соотношение сторон, а следовательно, изменилась форма в целом. Плюс это или минус — каждый может решить сам. На наш взгляд, первое поколение Gear Fit выглядело несколько интереснее и изящнее. Новинка более похожа на конкурирующие устройства.
Умный браслет Samsung Gear Fit
Впрочем, здесь сохранена еще одна особенность первого Gear Fit — металлическая окантовка вокруг экрана. Но если у первой версии она была блестящей, глянцевой, то у Gear Fit2 окантовка матовая, выкрашенная в цвет браслета. И потому выглядит это не столь эффектно. Не рассматривая устройство вблизи, сложно сказать, что это — пластик или металл.
Умный браслет Samsung Gear Fit
Пластик, впрочем, здесь тоже используется: тыльная часть корпуса выполнена именно из него. На ней расположены контакты для подключения зарядного устройства и датчик сердечного ритма.
Умный браслет Samsung Gear Fit
Кроме того, именно на пластиковой части размещены две кнопки (у первого Gear Fit кнопка была только одна). Нажатие на более маленькую кнопку открывает меню, если мы находимся на главном экране, или возвращает нас на главный экран, когда мы находимся на любом другом экране. А более крупная кнопка отвечает за шаг назад.
Умный браслет Samsung Gear Fit
Браслет сидит на руке вполне комфортно, удобен и силиконовый ремешок со стандартной застежкой в виде металлического штырька. Но назвать Samsung Gear Fit2 стильным и притягивающим взгляд мы не можем. Да, неплохо, да, вполне удобно, но никакого «вау» здесь нет.
Умный браслет Samsung Gear Fit
Нельзя сказать, что дизайн Gear Fit2 гораздо хуже, чем у Gear Fit, но есть ощущение, что оригинальность здесь утеряна, и в целом стиль стал поскучнее, несмотря на яркие цветовые решения. Тем не менее, с точки зрения удобства и функциональных особенностей никаких минусов мы не заметили. А появление еще одной кнопки — это только плюс, потому что на первом Gear Fit приходилось для возвращения назад жать маленькую виртуальную кнопочку на экране.

Экран

Браслет был у нас совсем недолго, поэтому полноценного тестирования с использованием специализированной аппаратуры провести не удалось, но по ощущениям экран здесь примерно такой же, как и у первого Gear Fit, если иметь в виду цвета, контрастность, яркость и четкость изображения. Точнее, последний параметр, судя по цифрам, у новинки даже лучше (317 против 240 ppi), но для носимого устройства с относительно небольшим экранчиком это не так существенно.
В целом, экран выглядит очень красиво, у него идеальный черный цвет (что вполне логично для Super AMOLED матрицы), сочные насыщенные цвета (в случае со смартфонами мы иногда жалуемся на их перенасыщенность в AMOLED, но для наручных гаджетов это даже плюс), достаточная яркость для того, чтобы пользоваться браслетом на солнце. И, конечно, экран Gear Fit восхищает красивым изгибом. Годы идут, а изогнутые экраны по-прежнему не становятся мэйнстримом, оставаясь уделом немногих экспериментальных устройств (вспомним, что у того же Samsung был смартфон Galaxy Round, а у LG есть линейка G Flex). Поэтому изогнутый экран Gear Fit2 сегодня выглядит не менее эффектно, чем экран его предшественника два года назад.
Правда, изгиб увеличивает количество бликов, то есть на ярком солнце у вас будут некоторые сложности с тем, чтобы повернуть браслет к себе, не словив бликов. Но нельзя сказать, что это слишком существенно и может испортить впечатления от использования Gear Fit2.

Интерфейс

Теперь давайте посмотрим, как выглядит интерфейс браслета. Главный экран — это циферблат. Причем, циферблат может отображать не только время, но также и другие сведения, в зависимости от конкретного варианта (дата, количество шагов и т.д.). Если сделать долгое нажатие на экран — можно выбрать циферблат.

Справочная информация о семействе видеокарт AMD Radeon RX 400

Справочная информация о семействе видеокарт Radeon X
Справочная информация о семействе видеокарт Radeon X1000
Справочная информация о семействе видеокарт Radeon HD 2000
Справочная информация о семействе видеокарт Radeon HD 4000
Справочная информация о семействе видеокарт Radeon HD 5000
Справочная информация о семействе видеокарт Radeon HD 6000
Справочная информация о семействе видеокарт Radeon HD 7000
Справочная информация о семействе видеокарт Radeon 200
Справочная информация о семействе видеокарт Radeon 300
Справочная информация о семействе видеокарт Radeon 400

Спецификации графических процессоров семейства Radeon 400

кодовое имя Polaris 10 Polaris 11
базовая статья здесь -
технология (нм) 14
транзисторов (млрд) 5,7 ?
универсальных процессоров 2304 896
текстурных блоков 144 48
блоков блендинга 32 16
шина памяти 256 128
типы памяти DDR3
GDDR5
системная шина PCI Express 3.0×16 PCI Express 3.0×8
интерфейсы DVI Dual-Link
HDMI 2.0b
DisplayPort 1.4
D3D Feature Level 12_0
точность вычислений FP32/FP64

Спецификации референсных карт семейства Radeon 400

карта чип блоков ALU/TMU/ROP частота ядра, МГц частота памяти, МГц объем памяти, ГБ ПСП, ГБ/c
(бит)
текстури-
рование, Гтекс
филлрейт, Гпикс TDP, Вт
Radeon RX 480 Polaris 10 XT 2304/144/32 1120(1266) 2000(8000) 4/8 GDDR5 256 (256) 182 41 150
Radeon RX 470 Polaris 10 Pro 2048/128/32 926(1206) 1650(6600) 4 GDDR5 211 (256) 154 38 120
Radeon RX 460 Polaris 11 896/48/16 1090(1200) 1750(7000) 2/4 GDDR5 112 (128) 58 19 75

Графический ускоритель AMD Radeon RX 480

Параметр Значение
Кодовое имя чипа Polaris 10 XT (Ellesmere)
Технология производства 14 нм FinFET
Количество транзисторов 5,7 млрд.
Площадь ядра 232 мм²
Архитектура Унифицированная, с массивом общих процессоров для потоковой обработки многочисленных видов данных: вершин, пикселей и др.
Аппаратная поддержка DirectX DirectX 12, с поддержкой уровня возможностей Feature Level 12_0
Шина памяти 256-битная: восемь независимых 32-битных контроллеров памяти с поддержкой GDDR5-памяти
Частота графического процессора 1120 (1266) МГц
Вычислительные блоки 36 вычислительных блоков GCN, включающих 144 SIMD-ядер, состоящих в целом из 2304 ALU для расчетов с плавающей запятой (поддерживаются целочисленные и плавающие форматы, с точностью FP16, FP32 и FP64)
Блоки текстурирования 144 текстурных блока, с поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
Блоки растеризации (ROP) 32 блока ROP с поддержкой режимов сглаживания с возможностью программируемой выборки более чем 16 сэмплов на пиксель, в том числе при FP16- или FP32-формате буфера кадра. Пиковая производительность до 32 отсчетов за такт, а в режиме без цвета (Z only) — 128 отсчетов за такт
Поддержка мониторов Интегрированная поддержка до шести мониторов, подключенных по интерфейсам DVI, HDMI 2.0b и DisplayPort 1.3/1.4 Ready
card.jpg
Спецификации референсной видеокарты Radeon RX 480
Параметр Значение
Частота ядра 1120 (1266) МГц
Количество универсальных процессоров 2304
Количество текстурных блоков 144
Количество блоков блендинга 32
Эффективная частота памяти 7000–8000 (4×1750–2000) МГц
Тип памяти GDDR5
Шина памяти 256-бит
Объем памяти 4/8 ГБ
Пропускная способность памяти 224–256 ГБ/с
Вычислительная производительность (FP32) до 5,8 терафлопс
Теоретическая максимальная скорость закраски 41 гигапиксел/с
Теоретическая скорость выборки текстур 182 гигатекселя/с
Шина PCI Express 3.0
Разъемы Один разъем HDMI и три DisplayPort
Энергопотребление до 150 Вт
Дополнительное питание Один 6-контактный разъем
Число слотов, занимаемых в системном корпусе 2
Рекомендуемая цена $199/$229 (для рынка США)
Название первой модели видеокарты компании AMD нового поколения соответствует их текущей системе наименований. Ее имя отличается от предшественников измененным символом в первой части индекса и цифрой поколения — RX 480. Если со вторым изменением все понятно, ведь поколение действительно новое, то замена R9 на RX не совсем логична, на наш взгляд, ведь эта цифра раньше показывала уровень видеокарты: R7 были медленнее, чем R9, но все они выпускались в рамках одного поколения.
Первая модель в новом семействе Radeon 400 становится в текущей линейке компании на место предыдущих решений, аналогичных по позиционированию. Так как выпущенная видеокарта относится скорее к среднему уровню по цене и скорости с учетом нового поколения, то для будущих решений на GPU еще большей мощности решили оставить индекс 490.
Референсный вариант Radeon RX 480 будет предлагаться по рекомендованной цене в $199 в случае 4 ГБ варианта и $229 для 8-гигабайтной модели, и эти цены весьма и весьма привлекательны! По сравнению с топовыми видеокартами предыдущего поколения, это очень хороший ценник, так как Radeon RX 480 по скорости не должна уступать таким моделям, как Radeon R9 390 и GeForce GTX 970. Но конкурировать новинке приходится еще и с GeForce GTX 1060, выпущенной через несколько дней. Впрочем, RX 480 в любом случае стала одним из лучших предложений по производительности в своем классе.
Референсные видеокарты Radeon RX 480 будут поставляться в версиях с 4 ГБ памяти GDDR5 с эффективной частотой в 7 ГГц, и с 8 ГБ памяти с частотой в 8 ГГц. Но по мере поступления в продажу видеокарт собственного производства партнеров AMD, появятся и другие варианты, но все они будут оснащены GDDR5-памятью с частотой как минимум 7 ГГц — такова воля AMD.
Решение по установке 4 и 8 ГБ памяти очень мудрое. Младший вариант позволит немного сэкономить, ведь 4 ГБ на данный момент можно считать «золотой серединой», а преимущество от 8 ГБ памяти у второго варианта Radeon RX 480 раскроется в перспективе. Хотя и 4-гигабайтный вариант видеокарты обеспечит приемлемую производительность в современных играх, но 8 ГБ памяти позволят иметь приличный запас на будущее, так как требования к объему видеопамяти у игр постоянно растут. В качестве примера, преимущество в котором уже заметно, можно привести игру Rise of the Tomb Raider в DirectX 12-версии, при очень высоких настройках и разрешении 2560×1440 пикселей:
perf-8gb.png
Больший объем видеопамяти у Radeon RX 480 8 ГБ и Radeon R9 390 помогает избежать крайне неприятных падений производительности и рывков FPS, по сравнению с 4-гигабайтными вариантами, включая решения конкурентов GeForce GTX 970 и GTX 960. Именно Radeon RX 480 8 ГБ дает возможность получения плавного игрового процесса с отсутствием притормаживаний, связанных с подгрузкой данных, не помещающихся в локальную видеопамять. И так как игровые консоли нынешнего поколения имеют по 8 ГБ общей памяти, то преимущество от большего объема памяти будет только расти со временем, и 8-гигабайтный вариант Radeon RX 480 отлично подойдет для игр, которые будут выходить в следующие несколько лет.
Для дополнительного питания платой используется один 6-контактный разъем, а значение типичного энергопотребления у модели Radeon RX 480 на графическом процессоре Polaris 10 установлено на уровне 150 Вт. Партнеры AMD выпускают и фабрично разогнанные версии этой видеокарты, отличающиеся и системами охлаждения и питания, хотя по скорости они не слишком далеко ушли от референсного варианта.

Архитектурные особенности

Графический процессор Polaris 10 относится к четвертому поколению архитектуры Graphics Core Next, самому совершенному на данный момент. Базовым блоком архитектуры является вычислительный блок Compute Unit (CU), из которых собраны все графические процессоры AMD. Вычислительный блок CU имеет выделенное локальное хранилище данных для обмена данными или расширения локального регистрового стека, а также кэш-память первого уровня с возможностью чтения и записи и полноценный текстурный конвейер с блоками выборки и фильтрации, он разделен на подразделы, каждый из которых работает над своим потоком команд. Каждый из таких блоков занимается планированием и распределением работы самостоятельно.
В своей основе, архитектура Polaris изменилась не слишком сильно, хотя не основные блоки видеочипа изменились заметнее — были серьезно улучшены блоки кодирования и декодирования видеоданных и вывода информации на устройства отображения. В остальном, это очередное поколение известной архитектуры Graphics Core Next (GCN), уже четвертое по счету. Пока что в состав семейства вошли два чипа: Polaris 10 (ранее известный как Ellesmere) и Polaris 11 (ранее известный как Baffin).
И все же некоторые аппаратные изменения в GPU были внесены. В список улучшений и изменений входит: улучшенная обработка геометрии, поддержка нескольких проекций при рендеринге VR с разным разрешением, обновленный контроллер памяти с улучшенным сжатием данных, модифицированная предвыборка инструкций и улучшенная буферизация, планирование и приоритезация вычислительных задач в асинхронном режиме, поддержка операций над данными в формате FP16/Int16. Рассмотрим схему нового графического процессора (по клику на изображении доступна увеличенная версия иллюстрации):
diag-sm.png
В состав полноценного графического процессора Polaris 10 входит один командный процессор Graphics Command Processor, четыре асинхронных вычислительных движка Asynchronous Compute Engines (ACE), два планировщика задач Hardware Scheduler (HWS), 36 вычислительных блоков Compute Unit (CU), четыре геометрических процессора, 144 текстурных модуля TMU (включающих по четыре блока загрузки и сохранения данных LSU на каждый TMU) и 32 блоков ROP. Подсистема памяти нового графического процессора компании AMD включает восемь 32-битных контроллеров GDDR5-памяти, дающих общую 256-битную шину памяти, и кэш-память второго уровня объемом в 2 МБ.
Заявлено улучшение геометрических движков в Polaris — в частности, появился так называемый ускоритель отбрасывания геометрических примитивов Primitive Discard Accelerator, который работает в самом начале графического конвейера, отбрасывая невидимые треугольники (например, с нулевой площадью). Также в новом GPU был введен новый индексный кэш для дублированной (instanced) геометрии, который оптимизирует перемещения данных и освобождает ресурсы внутренних шин передачи данных и увеличивает эффективность использования ПСП при дублировании геометрии (instancing).
perf-tess.png
Ускоритель отбрасывания геометрических примитивов помогает увеличить скорость обработки геометрии, особенно в задачах вроде тесселяции с мультисэмплингом. На диаграмме видно, что в разных условиях новый блок позволяет увеличить производительность до трех раз. Впрочем, это синтетические данные заинтересованной стороны, лучше смотреть по игровым результатам независимых тестов.
Также в четвертом поколении GCN была улучшена эффективность исполнения шейдеров — введена предвыборка инструкций, улучшающая кэширование инструкций, снижающая простои конвейера и увеличивающая общую вычислительную эффективность. Еще был увеличен размер буфера инструкций для массива инструкций (wavefront), увеличивающий однопоточную производительность, введена поддержка операций над данными в форматах FP16 и Int16, помогающая снизить нагрузку на память, повысить скорость вычислений и улучшить энергоэффективность. Последнюю возможность можно применять в широком круге задач графики, машинного зрения и обучения.
В очередной раз был улучшен и планировщик заданий hardware scheduler (HWS), использующийся при асинхронных вычислениях. В его задачи входит: разгрузка CPU от задач планирования, приоритезация задач реального времени (виртуальная реальность или обработка звука), параллельное выполнение задач и процессов, менеджмент ресурсов, координация и балансирование загрузки исполнительных блоков. Функциональность этих блоков можно обновить при помощи микрокода.
Кроме того, что объем кэш-памяти второго уровня был увеличен вдвое до 2 МБ, была изменена обработка и кэширование данных в L2-кэше и увеличена общая эффективность работы подсистемы кэш-памяти и локальной видеопамяти. Контроллер памяти получил поддержку GDDR5-памяти с эффективной тактовой частотой до 8 ГГц, что в случае Polaris означает пропускную способность шины памяти до 256 ГБ/с. Но и на этом в AMD не остановились, дополнительно улучшив алгоритмы сжатия данных без потерь (Delta Color Compression — DCC), которым поддерживаются режимы сжатия с соотношением 2:1, 4:1 и 8:1.
perf-dcc.png
Внутричиповое сжатие данных увеличивает общую эффективность работы, обеспечивает более полное использование шины данных и сказывается на энергоэффективности. В частности, если в Radeon R9 290X внутреннего сжатия информации не было и эффективная ПСП равна его физической ПСП, то в случае решения на чипе Fiji сжатие позволило сэкономить почти 20% ПСП, а в случае Polaris и до 35–40%.
memory-eff.png
Если сравнивать Radeon RX 480 с Radeon R9 290, то новое решение потребляет заметно меньше энергии для обеспечения той же эффективной пропускной способности, по сравнению с видеокартой предыдущего поколения. В результате, у новинки заметно выше и производительность в пересчете на бит — хотя у Radeon R9 290 выше пиковая ПСП, но она куда энергоэффективнее используется в Polaris 10 — общее потребление энергии интерфейсом памяти составляет 58% от потребления старого GPU.
В целом, изменения четвертого поколения GCN в графическом процессоре Polaris связаны с применением продвинутого технологического процесса 14 нм FinFET, микроархитектурными изменениями, оптимизациями физического дизайна и техник управления питанием. Все это принесло свои плоды в виде значительного прироста производительности и эффективности, по сравнению с предыдущими решениями. Если брать самый низкий уровень, то вычислительные блоки CU в Polaris 10 (Radeon RX 480) примерно на 15% производительнее блоков чипа Hawaii (Radeon R9 290).
perf-watt.png
Сложно судить, насколько велик вклад той или иной оптимизации в общий прирост скорости, но если брать все оптимизации в комплексе, то разница в энергоэффективности между Radeon RX 470 и Radeon R9 270X, по оценке специалистов компании AMD, достигает 2,8-кратной. Причем, они оценивают вклад FinFET-техпроцесса меньше вклада своих оптимизаций. Вероятно, было выбрано самое выгодное сравнение, а для других моделей прирост по энергоэффективности несколько меньше. Например, если сравнить показатели RX 480 и R9 290, то разница по энергоэффективности будет ближе к двукратной. В любом случае, такие огромные приросты бывают раз в несколько лет, и уже поэтому у нас нет никаких сомнений в том, что продажи Radeon RX 480 будут успешными.

Технологический процесс и его оптимизация

Как мы уже говорили, главное в Polaris — это не изменения в аппаратных блоках, а большой шаг вперед из-за применения в производстве этого GPU нового техпроцесса 14 нм с использованием транзисторов с вертикально расположенным затвором (FinFET — Fin Field Effect Transistor), также известных как транзисторы с трехмерной структурой затвора или 3D-транзисторы.
Динамическое энергопотребление растет линейно с ростом количества вычислительных блоков, и кубически при повышении частоты при помощи повышения напряжения (так, прирост частоты и напряжения на 15% увеличивает потребление более чем наполовину!), и в результате графические процессоры зачастую работают на более низких тактовых частотах, зато используют чипы большей плотности, чтобы поместить в них большее количество вычислительных устройств, которые работают параллельно.
Последние пять лет графические процессоры выпускались при помощи 28 нм техпроцессов, а промежуточный 20 нм не дал требуемых параметров. Освоения еще более совершенных техпроцессов пришлось ждать довольно долго, и вот, для производства графических процессоров семейства Polaris, компания AMD выбрала производства компаний Samsung Electronics и GlobalFoundries с их 14 нм FinFET-техпроцессом, который обеспечивает производство одних из самых плотных микропроцессоров. Применение FinFET-транзисторов имеет решающее значение для снижения энергопотребления и снижения напряжения GPU примерно на 150 мВ, по сравнению с предыдущим поколением, сокращая мощность на треть.
finfet.png
На иллюстрации схематично показано условное изменение размеров одного и того же GPU, произведенного с применением различных техпроцессов. Компании Samsung Electronics и GlobalFoundries разделяют заказы на выпуск 14 нм центральных и графических процессоров компании AMD, так как техпроцесс у них одинаковый и наладить одновременное производство несложно, разделяя между ними заказы исходя из выхода годных чипов и других параметров, что должно позволить решить потенциальные проблемы с недостаточными объемами производства.
Архитектура Polaris изначально разрабатывалась под возможности FinFET-техпроцессов, и должна использовать все их возможности. Если описывать вкратце, то FinFET-транзистор — это транзистор с каналом, окруженным затвором через прослойку в виде изолятора с трех сторон — по сравнению с планарным, где поверхность сопряжения — это одна плоскость. FinFET-транзисторы имеют более сложное устройство, и трудностей при реализации новой технологии было предостаточно, для освоения соответствующих техпроцессов потребовалось пять лет.
Зато новая форма транзисторов обеспечивает больший выход годных, меньшие утечки и заметно лучшую энергоэффективность, что является основной задачей современной микроэлектроники. Количество транзисторов в графических процессорах на квадратный миллиметр площади удваивалось примерно каждые два года, вместе с этим удвоились и статические утечки (static leakage). Для решения части этих проблем использовались специальные средства, вроде островков из транзисторов с разным напряжением питания и схем управления тактовыми сигналами (clock gating), которые помогали снизить токи утечек в режимах простоя или сна. Но эти техники не помогают при активных состояниях работы и способны снизить максимальную производительность.
В FinFET-процессах многие проблемы решены, что позволяет добиться революционного улучшения в производительности и потреблении энергии, по сравнению с предыдущими чипами, произведенными при помощи традиционных технологий. Новые техпроцессы позволяют не просто повысить производительность, но и снизить вариативность характеристик (разницу в характеристиках всех произведенных чипов одной модели) — сравните разброс параметров для FinFET-техпроцесса 14 нм и привычного 28 нм у TSMC:
process_vs.jpg
На этой диаграмме видны как большая средняя производительность для FinFET-продуктов, так и меньшие утечки в среднем, и меньший разброс в показателях производительности и величине утечек для разных образцов. Улучшение вариативности этих характеристик для GPU в случае FinFET означает, что можно повысить итоговую частоту для всех продуктов, в то время как для планарных транзисторов приходилось обращать большее внимание на худшие показатели и снижать референсные характеристики для всех конечных продуктов.
В итоге графические процессоры, произведенные при помощи техпроцессов с применением FinFET-транзисторов, обеспечивают фундаментальный рост характеристик производительности и энергоэффективности, по сравнению с аналогами, в производстве которых были использованы традиционные планарные транзисторы. По оценке специалистов AMD, применение FinFET-техпроцессов позволяет обеспечить или на 50–60% меньшее потребление энергии, или на 20–35% большую производительность при прочих равных.
Новые техпроцессы с применением FinFET-транзисторов помогают не только снизить потребление энергии и значительно улучшить энергоэффективность, но и открыть новые форм-факторы и форматы для применения будущих графических процессоров. Так, в будущем возможно появление относительно тонких и легких игровых ноутбуков, которые не будут требовать значительного снижения настроек качества 3D-графики, достаточно мощных настольных ПК ультракомпактного размера, ну, а привычные игровые видеокарты смогут обходиться меньшим количеством разъемов питания.
Но для того, чтобы добиться большей энергоэффективности, недостаточно просто перевести чип на более «тонкий» техпроцесс, требуются многочисленные изменения в его дизайн. К примеру, в Polaris применяется адаптивное тактирование GPU. Графические процессоры работают при низком напряжении и высокой силе тока, и поставлять качественное напряжение от схем питания довольно сложно. Разброс в напряжении может достигать 10–15% от номинального значения, и среднее напряжение приходится повышать для того, чтобы перекрыть эту разницу, и на это тратится впустую куча энергии.
adaptive-clock.png
Адаптивное тактирование в решениях AMD восстанавливает эти потери со снижением энергозатрат на четверть. Для этого, в дополнение к уже существующим сенсорам энергопотребления и температуры добавляется еще и сенсор частоты. В результате работы алгоритма достигается максимальная энергоэффективность для всего чипа.
Также производится калибровка блока питания при загрузке системы. При испытаниях процессора запускается специальный код для анализа напряжения, и интегрированными мониторами питания записывается значение напряжение. Затем при загрузке ПК запускается тот же код и замеряется полученное напряжение, и регуляторы напряжения на плате устанавливают такое же напряжение, какое было при тестировании. Это исключает затраты энергии, которая расходуется из-за разницы в системах.
Есть в Polaris и адаптивная компенсация старения транзисторов — обычно графические процессоры требуют запаса тактовой частоты порядка 2–3% для приспособления к старению транзисторов чипа, да и другие компоненты также демонстрируют старение (например, GPU получает более низкое напряжение от системы). Современные решения AMD умеют делать самостоятельную калибровку и адаптироваться к изменяющимся условиям со временем, что обеспечивает надежную работу видеокарты в течение продолжительного времени и немного повышенную производительность.

Radeon WattMan — новые возможности разгона и мониторинга

Важной составляющей любого современного видеодрайвера являются настройки для разгона, позволяющие выжать из GPU все его возможности. Ранее этим заведовал раздел AMD Overdrive в драйверах решений этой компании, а вместе с выходом новых решений в AMD решили кардинально обновить и этот раздел драйвера, назвав его Radeon WattMan.
Radeon WattMan — это новая утилита AMD для разгона, позволяющая изменять напряжение GPU, частоту графического процессора и видеопамяти, скорость вращения вентилятора системы охлаждения и целевую температуру. Radeon WattMan основан на возможностях, виденных ранее в Radeon Software, но предлагает несколько новых функций по тонкому разгону — с иными возможностями по управлению напряжением и частотой GPU. Также в WattMan появился удобный мониторинг активности GPU, тактовых частот, температур и скорости вентилятора.
Удобно сделано то, что как и в других настройках Radeon Software Crimson Edition, можно задать собственный профиль разгона для каждого приложения или игры, который будет применен при их запуске. А после завершения работы приложения, настройки вернутся к глобальным по умолчанию. Radeon WattMan можно найти в Radeon Settings, он заместил текущую панель AMD OverDrive, и совместим с серией AMD Radeon RX 400.
wattman-sm.png
Возможно как простое управление частотой GPU, так и тонкая настройка кривой частот. Простая настройка частоты работает по умолчанию и позволяет изменять заданные инженерами AMD значения, оптимальные для каждого состояния GPU. Изменение кривой частоты возможно с точностью в 0,5%. Есть и динамическое изменение кривой частоты, когда тактовая частота ядра GPU и видеопамяти может изменять

Справочная информация о семействе видеокарт Nvidia GeForce GTX 1000

Справочная информация о семействе видеокарт NV4X
Справочная информация о семействе видеокарт G7X
Справочная информация о семействе видеокарт G8X/G9X
Справочная информация о семействе видеокарт Tesla (GT2XX)
Справочная информация о семействе видеокарт Fermi (GF1XX)
Справочная информация о семействе видеокарт Kepler (GK1XX/GM1XX)
Справочная информация о семействе видеокарт Maxwell (GM2XX)
Справочная информация о семействе видеокарт Pascal (GP1XX)

Спецификации чипов семейства Pascal

кодовое имя GP102 GP104 GP106
базовая статья - здесь здесь
технология, нм 16
транзисторов, млрд 12 7,2 4,4
универсальных процессоров 3584 2560 1280
текстурных блоков 224 160 80
блоков блендинга 96 64 48
шина памяти 384 256 192
типы памяти GDDR5, GDDR5X
системная шина PCI Express 3.0
интерфейсы DVI Dual Link
HDMI 2.0b
DisplayPort 1.4
D3D Feature Level 12_1
точность вычислений FP32/FP64

Спецификации референсных карт на базе семейства Pascal

карта чип блоков ALU/TMU/ROP частота ядра, МГц частота памяти, МГц объем памяти, ГБ ПСП, ГБ/c
(бит)
текстури-
рование, Гтекс
филлрейт, Гпикс TDP, Вт
Titan X GP102 3584/224/96 1417(1530) 2500(10000) 12 GDDR5X 480 (384) 336 144 250
GeForce GTX 1080 GP104 2560/160/64 1607(1733) 2500(10000) 8 GDDR5X 320 (256) 257 103 180
GeForce GTX 1070 GP104 1920/120/64 1506(1683) 2000(8000) 8 GDDR5 256 (256) 181 96 150
GeForce GTX 1060 GP106 1280/80/48 1506(1708) 2000(8000) 6 GDDR5 192 (192) 121 72 120

Графический ускоритель GeForce GTX 1080

Параметр Значение
Кодовое имя чипа GP104
Технология производства 16 нм FinFET
Количество транзисторов 7,2 млрд.
Площадь ядра 314 мм²
Архитектура Унифицированная, с массивом общих процессоров для потоковой обработки многочисленных видов данных: вершин, пикселей и др.
Аппаратная поддержка DirectX DirectX 12, с поддержкой уровня возможностей Feature Level 12_1
Шина памяти 256-битная: восемь независимых 32-битных контроллеров памяти с поддержкой GDDR5 и GDDR5X памяти
Частота графического процессора 1607 (1733) МГц
Вычислительные блоки 20 потоковых мультипроцессоров, включающих 2560 скалярных ALU для расчетов с плавающей запятой в рамках стандарта IEEE 754–2008;
Блоки текстурирования 160 блоков текстурной адресации и фильтрации с поддержкой FP16- и FP32-компонент в текстурах и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
Блоки растровых операций (ROP) 8 широких блоков ROP (64 пикселя) с поддержкой различных режимов сглаживания, в том числе программируемых и при FP16- или FP32-формате буфера кадра. Блоки состоят из массива конфигурируемых ALU и отвечают за генерацию и сравнение глубины, мультисэмплинг и блендинг
Поддержка мониторов Интегрированная поддержка до четырех мониторов, подключенных по интерфейсам Dual Link DVI, HDMI 2.0b и DisplayPort 1.2 (1.3/1.4 Ready)
Спецификации референсной видеокарты GeForce GTX 1080
Параметр Значение
Частота ядра 1607 (1733) МГц
Количество универсальных процессоров 2560
Количество текстурных блоков 160
Количество блоков блендинга 64
Эффективная частота памяти 10000 (4×2500) МГц
Тип памяти GDDR5X
Шина памяти 256-бит
Объем памяти 8 ГБ
Пропускная способность памяти 320 ГБ/с
Вычислительная производительность (FP32) около 9 терафлопс
Теоретическая максимальная скорость закраски 103 гигапикселей/с
Теоретическая скорость выборки текстур 257 гигатекселей/с
Шина PCI Express 3.0
Разъемы Один разъем Dual Link DVI, один HDMI и три DisplayPort
Энергопотребление до 180 Вт
Дополнительное питание Один 8-контактный разъем
Число слотов, занимаемых в системном корпусе 2
Рекомендуемая цена $599–699 (США), 54990 руб (Россия)
Новая модель видеокарты GeForce GTX 1080 получила логичное для первого решения новой серий GeForce наименование — она отличается от своего прямого предшественника только измененной цифрой поколения. Новинка не просто заменяет в текущей линейке компании топовые решения, но и на какое-то время стала флагманом новой серии, пока не выпустили Titan X на GPU еще большей мощности. Ниже ее в иерархии располагается также уже анонсированная модель GeForce GTX 1070, основанная на урезанной версии чипа GP104, которую мы еще рассмотрим ниже.
Рекомендованные цены на новую видеоплату Nvidia составляют $599 и $699 для обычных версий и специального издания Founders Edition (см. далее), соответственно, и это довольно неплохое предложение с учетом того, что GTX 1080 опережает не только GTX 980 Ti, но и Titan X. На сегодня новинка является лучшим по производительности решением на рынке одночиповых видеокарт без каких-либо вопросов, и при этом она стоит дешевле самых производительных видеокарт предыдущего поколения. Пока конкурента от AMD у GeForce GTX 1080 по сути нет, поэтому в Nvidia смогли установить такую цену, которая их устраивает.
Рассматриваемая видеокарта основана на чипе GP104, имеющем 256-битную шину памяти, но новый тип памяти GDDR5X работает на весьма высокой эффективной частоте в 10 ГГц, что дает высокую пиковую пропускную способность в 320 ГБ/с — что почти на уровне GTX 980 Ti с 384-битной шиной. Объем установленной на видеокарту памяти с такой шиной мог быть равен 4 или 8 ГБ, но ставить меньший объем для столь мощного решения в современных условиях было бы глупо, поэтому GTX 1080 совершенно логично получила 8 ГБ памяти, и этого объема хватит для запуска любых 3D-приложений с любыми настройками качества на несколько лет вперед.
Печатная плата GeForce GTX 1080 по понятным причинам прилично отличается от предыдущих PCB компании. Значение типичного энергопотребления для новинки составляет 180 Вт — это несколько выше, чем у GTX 980, но заметно ниже, чем у менее производительных Titan X и GTX 980 Ti. Референсная плата имеет привычный набор разъемов для присоединения устройств вывода изображения: один Dual-Link DVI, один HDMI и три DisplayPort.

Референсный дизайн Founders Edition

Еще при анонсе GeForce GTX 1080 в начале мая было объявлено специальное издание видеокарты под названием Founders Edition, имеющее более высокую цену по сравнению с обычными видеокартами партнеров компании. По сути, это издание является референсным дизайном карты и системы охлаждения, и производится оно самой компанией Nvidia. Можно по-разному относиться к таким вариантам видеокарт, но разработанный инженерами компании референсный дизайн и произведенная с применением качественных компонентов конструкция имеет своих поклонников.
А вот будут ли они отдавать на несколько тысяч рублей больше за видеокарту от самой Nvidia — это вопрос, ответ на который может дать только практика. В любом случае, поначалу в продаже появятся именно референсные видеокарты от Nvidia по повышенной цене, и выбирать особенно не из чего — так бывает при каждом анонсе, но референсная GeForce GTX 1080 отличается тем, что в таком виде ее планируется продавать на всем протяжении срока ее жизни, вплоть до выхода решений следующего поколения.
В Nvidia считают, что это издание имеет свои достоинства даже перед лучшими произведениями партнеров. Например, двухслотовый дизайн кулера позволяет с легкостью собирать на основе этой мощной видеокарты как игровые ПК сравнительно небольшого форм-фактора, так и многочиповые видеосистемы (даже несмотря на нерекомендуемый компанией режим работы в трех- и четырехчиповом режиме). GeForce GTX 1080 Founders Edition имеет некоторые преимущества в виде эффективного кулера с использованием испарительной камеры и вентилятора, выбрасывающего нагретый воздух из корпуса — это первое такое решение Nvidia, потребляющее менее 250 Вт энергии.
По сравнению с предыдущими референсными дизайнами продуктов компании, схема питания была модернизирована с четырехфазной до пятифазной. В Nvidia говорят и об улучшенных компонентах, на которых основана новинка, также были снижены электрические помехи, позволяющие улучшить стабильность напряжения и разгонный потенциал. В результате всех улучшений энергоэффективность референсной платы увеличилась на 6% по сравнению с GeForce GTX 980.
founders_1.jpg
А для того, чтобы отличаться от «обычных» моделей GeForce GTX 1080 и внешне, для Founders Edition разработали необычный «рубленый» дизайн корпуса. Который, правда, наверняка привел также и к усложнению формы испарительной камеры и радиатора (см. фото), что возможно и послужило одним из поводов для доплаты в $100 за такое специальное издание. Повторимся, что в начале продаж особого выбора у покупателей не будет, но в дальнейшем можно будет выбрать как решение с собственным дизайном от одного из партнеров компании, так и в исполнении самой Nvidia.

Новое поколение графической архитектуры Pascal

Видеокарта GeForce GTX 1080 стала первым решением компании на основе чипа GP104, относящегося к новому поколению графической архитектуры Nvidia — Pascal. Хотя новая архитектура взяла в основу решения, отработанные еще в Maxwell, в ней есть и важные функциональные отличия, о которых мы напишем далее. Главным же изменением с глобальной точки зрения стал новый технологический процесс, по которому выполнен новый графический процессор.
Применение техпроцесса 16 нм FinFET при производстве графических процессоров GP104 на фабриках тайваньской компании TSMC дало возможность значительно повысить сложность чипа при сохранении сравнительно невысокой площади и себестоимости. Сравните количество транзисторов и площадь чипов GP104 и GM204 — они близки по площади (кристалл новинки даже чуть меньше физически), но чип архитектуры Pascal имеет заметно большее количество транзисторов, а соответственно и исполнительных блоков, в том числе обеспечивающих новую функциональность.
С архитектурной точки зрения, первый игровой Pascal весьма похож на аналогичные решения архитектуры Maxwell, хотя есть и некоторые отличия. Как и Maxwell, процессоры архитектуры Pascal будут иметь разную конфигурацию вычислительных кластеров Graphics Processing Cluster (GPC), потоковых мультипроцессоров Streaming Multiprocessor (SM) и контроллеров памяти. Мультипроцессор SM — это высокопараллельный мультипроцессор, который планирует и запускает варпы (warp, группы из 32 потоков команд) на CUDA-ядрах и других исполнительных блоках в мультипроцессоре. Подробные данные об устройстве всех этих блоков вы можете найти в наших обзорах предыдущих решений компании Nvidia.
Каждый из мультипроцессоров SM спарен с движком PolyMorph Engine, который обрабатывает текстурные выборки, тесселяцию, трансформацию, установку вершинных атрибутов и коррекцию перспективы. В отличие от предыдущих решений компании, PolyMorph Engine в чипе GP104 также содержит новый блок мультипроецирования Simultaneous Multi-Projection, о котором мы еще поговорим ниже. Комбинация мультипроцессора SM с одним движком Polymorph Engine традиционно для Nvidia называется TPC — Texture Processor Cluster.
diag_sm.png
Всего чип GP104 в составе GeForce GTX 1080 содержит четыре кластера GPC и 20 мультипроцессоров SM, а также восемь контроллеров памяти, объединенных с блоками ROP в количестве 64 штук. Каждый кластер GPC имеет выделенный движок растеризации и включает в себя пять мультипроцессоров SM. Каждый мультипроцессор, в свою очередь, состоит из 128 CUDA-ядер, 256 КБ регистрового файла, 96 КБ разделяемой памяти, 48 КБ кэш-памяти первого уровня и восьми текстурных блоков TMU. То есть, всего в GP104 содержится 2560 CUDA-ядер и 160 блоков TMU.
Также графический процессор, на котором основана видеокарта GeForce GTX 1080, содержит восемь 32-битных (в отличие от 64-битных, применяющихся ранее) контроллеров памяти, что дает нам итоговую 256-битную шину памяти. К каждому из контроллеров памяти привязано по восемь блоков ROP и 256 КБ кэш-памяти второго уровня. То есть, всего чип GP104 содержит 64 блоков ROP и 2048 КБ кэш-памяти второго уровня.
Благодаря архитектурным оптимизациям и новому техпроцессу, первый игровой Pascal стал самым энергоэффективным графическим процессором за все время. Причем, вклад в это есть как со стороны одного из самых совершенных технологических процессов 16 нм FinFET, так и от проведенных оптимизаций архитектуры в Pascal, по сравнению с Maxwell. В Nvidia смогли повысить тактовую частоту даже больше, чем они рассчитывали при переходе на новый техпроцесс. GP104 работает на более высокой частоте, чем работал бы гипотетический GM204, выпущенный при помощи техпроцесса 16 нм. Для этого инженерам Nvidia пришлось тщательно проверить и оптимизировать все узкие места предыдущих решений, не дающие разогнаться выше определенного порога. В результате, новая модель GeForce GTX 1080 работает более чем на 40% повышенной частоте, по сравнению с GeForce GTX 980. Но это еще не все изменения, связанные с частотой работы GPU.

Технология GPU Boost 3.0

Как мы хорошо знаем по предыдущим видеокартам компании Nvidia, в своих графических процессорах они применяют аппаратную технологию GPU Boost, предназначенную для увеличения рабочей тактовой частоты GPU в режимах, когда он еще не достиг пределов по энергопотреблению и тепловыделению. За прошедшие годы этот алгоритм претерпел множество изменений, и в видеочипе архитектуры Pascal применяется уже третье поколение этой технологии — GPU Boost 3.0, основным нововведением которого стала более тонкая установка турбо-частот, в зависимости от напряжения.
Если вы вспомните принцип работы предыдущих версий технологии, то разница между базовой частотой (гарантированное минимальное значение частоты, ниже которого GPU не опускается, как минимум в играх) и турбо-частотой была фиксированной. То есть, турбо-частота всегда была на определенное количество мегагерц выше базовой. В GPU Boost 3.0 появилась возможность установки смещений турбо-частот для каждого напряжения по отдельности. Проще всего это понять по иллюстрации:
boost_diag.png
Слева указан GPU Boost второй версии, справа — третьей, появившейся в Pascal. Фиксированная разница между базовой и турбо-частотами не давала раскрыть возможности GPU полностью, в некоторых случаях графические процессоры предыдущих поколений могли работать быстрее на установленном напряжении, но фиксированное превышение турбо-частоты не давало сделать этого. В GPU Boost 3.0 такая возможность появилась, и турбо-частота может устанавливаться для каждого из индивидуальных значений напряжения, полностью выжимая все соки из GPU.
Для того, чтобы управлять разгоном и установить кривую турбо-частоты, требуются удобные утилиты. Сама Nvidia этим не занимается, но помогает своим партнерам создать подобные утилиты для облегчений разгона (в разумных пределах, конечно). К примеру, новые функциональные возможности GPU Boost 3.0 уже раскрыты в EVGA Precision XOC, включающей специальные сканер разгона, автоматически находящий и устанавливающий нелинейную разницу между базовой частотой и турбо-частотой для разных значений напряжения при помощи запуска встроенного теста производительности и стабильности. В результате у пользователя получается кривая турбо-частоты, идеально соответствующая возможностям конкретного чипа. Которую, к тому же, можно как угодно модифицировать в ручном режиме.
boost_evga.jpg
Как вы видите на скриншоте утилиты, в дополнение к информации о GPU и системе, есть также настройки для разгона: Power Target (определяет типичное энергопотребление при разгоне, в процентах от стандартного), GPU Temp Target (максимально допустимая температура ядра), GPU Clock Offset (превышение над базовой частотой для всех значений напряжения), Memory Offset (превышение частоты видеопамяти над значением по умолчанию), Overvoltage (дополнительная возможность для повышения напряжения).
Утилита Precision XOC включает три режима разгона: основной Basic, линейный Linear и ручной Manual. В основном режиме можно установить единое значение превышения частоты (фиксированную турбо-частоту) над базовой, как это было для предыдущих GPU. Линейный режим позволяет установить линейное изменение частоты от минимального до максимального значений напряжения для GPU. Ну и в ручном режиме можно выставить уникальные значения частоты GPU для каждой точки напряжения на графике.
В составе утилиты есть также специальный сканер для автоматического разгона. Можно или установить собственные уровни частоты или позволить утилите Precision XOC просканировать GPU на всех напряжениях и найти максимально стабильные частоты для каждой точки на кривой напряжения и частоты полностью автоматически. В процессе сканирования Precision XOC постепенно добавляет частоту GPU и проверяет его работу на стабильность или появление артефактов, строя идеальную кривую частот и напряжений, которая будет уникальна для каждого конкретного чипа.
Этот сканер можно настроить под свои собственные требования, задав временной отрезок тестирования каждого значения напряжения, минимум и максимум проверяемой частоты, и ее шаг. Понятно, что для достижения стабильных результатов лучше будет выставить небольшой шаг и приличную продолжительность тестирования. В процессе тестирования может наблюдаться нестабильная работа видеодрайвера и системы, но если сканер не зависнет, то восстановит работу и продолжит нахождение оптимальных частот.

Новый тип видеопамяти GDDR5X и улучшенное сжатие

Итак, мощность графического процессора заметно выросла, а шина памяти осталась всего лишь 256-битной — не будет ли пропускная способность памяти ограничивать общую производительность и что с этим можно делать? Похоже, что перспективная HBM-память второго поколения все еще слишком дорога в производстве, поэтому пришлось искать другие варианты. Еще с момента появления GDDR5-памяти в 2009 году, инженеры компании Nvidia исследовали возможности использования новых типов памяти. В результате, разработки пришли к внедрению нового стандарта памяти GDDR5X — самого сложного и продвинутого на сегодняшний момент стандарта, дающего скорость передачи 10 Gbps.
Nvidia приводит интересный пример того, насколько это быстро. Между переданными битами проходит всего 100 пикосекунд — за такое время луч света пройдет расстояние всего лишь в один дюйм (около 2,5 см). И при использовании GDDR5X-памяти цепи приема-передачи данных должны менее чем за половину этого времени выбрать значение переданного бита, до того, как будет прислан следующий — это просто чтобы вы понимали, до чего дошли современные технологии.
g5x.jpg
Чтобы добиться такой скорости работы, потребовалась разработка новой архитектуры системы ввода-вывода данных, потребовавшей нескольких лет совместной разработки с производителями чипов памяти. Кроме возросшей скорости передачи данных, выросла и энергоэффективность — чипы памяти стандарта GDDR5X используют пониженное напряжение в 1,35 В и произведены по новым технологиям, что дает то же потребление энергии при на 43% большей частоте.
Инженерам компании пришлось перерабатывать линии передачи данных между ядром GPU и чипами памяти, больше внимания обращать на предотвращение потери и деградацию сигнала на всем пути от памяти к GPU и обратно. Так, на приведенной выше иллюстрации показан захваченный сигнал в виде большого симметричного «глаза», что говорит о хорошей оптимизации всей цепи и относительной легкости захвата данных из сигнала. Причем, описанные выше изменения привели не только к возможности применения GDDR5X на 10 ГГц, но также и должны помочь получить высокую ПСП на будущих продуктах, использующих более привычную GDDR5-память.
Хорошо, более чем 40% прироста в ПСП от применения новой памяти мы получили. Но не маловато ли этого? Для дальнейшего увеличения эффективности использования полосы пропускания памяти в Nvidia продолжили улучшать внедренное еще в предыдущих архитектурах продвинутое сжатие данных. Подсистема памяти в GeForce GTX 1080 использует улучшенные и несколько новых техник по сжатию данных без потерь, предназначенные для снижения требований к ПСП — уже четвертое поколение внутричипового сжатия.
Алгоритмы сжатия данных в памяти приносят сразу несколько положительных моментов. Сжатие снижает количество записываемых данных в память, то же самое касается данных, пересылаемых из видеопамяти в кэш-память второго уровня, что улучшает эффективность использования L2-кэша, так как сжатый тайл (блок из нескольких пикселей фреймбуфера) имеет меньший размер, чем несжатый. Также уменьшается количество данных, пересылаемых между разными точками, вроде текстурного модуля TMU и фреймбуфера.
Конвейер сжатия данных в GPU использует несколько алгоритмов, которые определяются в зависимости от «сжимаемости» данных — для них подбирается лучший из имеющихся алгоритмов. Одним из самых важных является алгоритм дельта-кодирования данных о цвете пикселей (delta color compression). Этот способ сжатия кодирует данные в виде разницы между последовательными значениями вместо самих данных. GPU вычисляет разницу в цветовых значениях между пикселями в блоке (тайле) и сохраняет блок как некий усредненный цвет для всего блока плюс данные о разнице в значениях для каждого пикселя. Для графических данных такой метод обычно хорошо подходит, так как цвет в пределах небольших тайлов для всех пикселей зачастую отличается не слишком сильно.
compression.jpg
Графический процессор GP104 в составе GeForce GTX 1080 поддерживает большее количество алгоритмов сжатия по сравнению с предыдущими чипами архитектуры Maxwell. Так, алгоритм сжатия 2:1 стал более эффективным, а в дополнение к нему появились два новых алгоритма: режим сжатия 4:1, подходящий для случаев, когда разница в значении цвета пикселей блока очень невелика, и режим 8:1, сочетающий алгоритм постоянного сжатия с соотношением 4:1 блоков размером 2×2 пикселя с двукратным сжатием дельты между блоками. Когда сжатие совсем невозможно, оно не используется.
Впрочем, в реальности последнее бывает весьма нечасто. В этом можно убедиться по примерам скриншотов из игры Project CARS, которые привела Nvidia чтобы проиллюстрировать повышенную степень сжатия в Pascal. На иллюстрациях пурпурным закрашены те тайлы кадрового буфера, которые смог сжать графический процессор, а не поддающиеся сжатию без потерь остались с оригинальным цветом (сверху — Maxwell, снизу — Pascal).
comp_old.jpgcomp_new.jpg
Как видите, новые алгоритмы сжатия в GP104 действительно работают гораздо лучше, чем в Maxwell. Хотя старая архитектура также смогла сжать большинство тайлов в сцене, большое количество травы и деревьев по краям, а также детали машины не подвергаются устаревшим алгоритмам сжатия. Но при включении в работу новых техник в Pascal, несжатым осталось очень небольшое количество участков изображения — улучшенная эффективность налицо.
comp_perf.png
В результате улучшений в сжатии данных, GeForce GTX 1080 способен значительно снизить количество пересылаемых данных в каждом кадре. Если говорить о цифрах, то улучшенное сжатие экономит дополнительно около 20% эффективной полосы пропускания памяти. В дополнение к более чем на 40% повышенной ПСП у GeForce GTX 1080 относительно GTX 980 от использования GDDR5X-памяти, все вместе это дает около 70% прироста в эффективном ПСП, по сравнению с моделью прошлого поколения.

Поддержка асинхронных вычислений Async Compute

Большинство современных игр используют сложные вычисления в дополнение к графическим. К примеру, вычисления при расчете поведения физических тел вполне можно проводить не до или после графических вычислений, а одновременно с ними, так как они не связаны друг с другом и не зависят друг от друга в пределах одного кадра. Также в пример можно привести постобработку уже отрендеренных кадров и обработку аудиоданных, которые тоже можно исполнять параллельно с рендерингом.
Еще одним ярким примером использования функциональности служит техника асинхронного искажения времени (Asynchronous Time Warp), используемая в системах виртуальной реальности для того, чтобы изменить выдаваемый кадр в соответствии с движением головы игрока прямо перед самым его выводом, прерывая рендеринг следующего. Подобная асинхронная загрузка мощностей GPU позволяет повысить эффективность использования его исполнительных блоков.
Подобные нагрузки создают два новых сценария использования GPU. Первый из них включает накладывающиеся загрузки, так как многие типы задач не используют возможности графических процессоров полностью, и часть ресурсов простаивает. В таких случаях можно просто запустить на одном GPU две разные задачи, разделяющие его исполнительные блоки для получения более эффективного использования — например, PhysX-эффекты, выполняющиеся совместно с 3D-рендерингом кадра.
Для улучшения работы этого сценария, в архитектуре Pascal появилась динамическая балансировка загрузки (dynamic load balancing). В предыдущей архитектуре Maxwell перекрывающиеся нагрузки были выполнены в виде статического распределения ресурсов GPU на графические и вычислительные. Такой подход эффективен при условии, что баланс между двумя нагрузками примерно соответствует разделению ресурсов и задачи выполняются одинаково по времени. Если же неграфические вычисления выполняются дольше графических, и обе ожидают завершения общей работы, то часть GPU оставшееся время будет простаивать, что вызовет снижение общей производительности и сведет всю выгоду на нет. Аппаратная динамическая балансировка загрузки же позволяет использовать освободившиеся ресурсы GPU сразу же как они станут доступными — для понимания приведем иллюстрацию.
async_load.png
Существуют и задачи, критичные к времени исполнения, и это — второй сценарий асинхронных вычислений. Например, исполнение алгоритма асинхронного искажения времени в VR должно завершиться до развертки (scan out) или кадр будет отброшен. В таком случае, GPU должен поддерживать очень быстрое прерывание задачи и переключение на другую, чтобы снять менее критическую задачу с исполнения на GPU, освободив его ресурсы для критически важных задач — это называется preemption.
Одна команда рендеринга от игрового движка может содержать сотни вызовов функций отрисовки, каждый вызов draw call, в свою очередь, содержит сотни обрабатываемых треугольников, каждый из которых содержит сотни пикселей, которые нужно рассчитать и отрисовать. В традиционном подходе на GPU используется прерывание задач только на высоком уровне, и графический конвейер вынужден ждать завершения всей этой работы перед переключением задачи, что в результате приводит к очень большим задержкам.
Чтобы исправить это, в архитектуре Pascal впервые была введена возможность прерывания задачи на пиксельном уровне — Pixel Level Preemption. Исполнительные блоки графического процессора Pascal могут постоянно отслеживать прогресс выполнения задач рендеринга, и когда прерывание будет запрошено, они могут остановить исполнение, сохранив контекст для дальнейшего завершения, быстро переключившись на другую задачу.
async_pre_diag.png
Прерывание и переключение на уровне потока для вычислительных операций работает аналогично прерыванию на пиксельном уровне для графических вычислений. Вычислительные нагрузки состоят из нескольких сеток, каждая из которых содержит множество потоков. Когда получен запрос на прерывание, выполняемые на мультипроцессоре потоки заканчивают исполнение. Другие блоки сохраняют собственное состояние чтобы продолжить с того же момента в дальнейшем, и GPU переключается на другую задачу. Весь процесс переключения задач занимает менее чем 100 микросекунд после того, как выполняемые потоки завершают работу.
Для игровых нагрузок, сочетание прерываний на пиксельном уровне для графических, и прерывания на уровне потоков для вычислительных задач дает графическим процессорам архитектуры Pascal возможность быстрого переключения между задачами с минимальными потерями времени. А для вычислительных задач на CUDA, также возможно прерывание с минимальной гранулярностью — на уровне инструкций. В таком режиме все потоки останавливают выполнение сразу, немедленно переключаясь на другую задачу. Этот подход требует сохранения большего количества информации о состоянии всех регистров каждого потока, но в некоторых случаях неграфических вычислений он вполне оправдан.
Использование быстрого прерывания и переключения задач в графических и вычислительных задачах было добавлено в архитектуру Pascal для того, чтобы графические и неграфические задачи могли прерываться на уровне отдельных инструкций, а не целых потоков, как было в Maxwell и Kepler. Эти технологии способны улучшить асинхронное исполнение различных нагрузок на графический процессор и улучшить отзывчивость при одновременном выполнении нескольких задач. На мероприятии Nvidia показывали демонстрацию работы асинхронных вычислений на примере вычисления физических эффектов. Если без асинхронных вычислений производительность была на уровне 77–79 FPS, то с включением этих возможностей частота кадров выросла до 93–94 FPS.
Мы уже приводили в пример одну из возможностей применения этой функциональности в играх в виде асинхронного искажения времени в VR. На иллюстрации показана работа этой технологии с традиционным прерыванием (preemption) и с быстрым. В первом случае, процесс асинхронного искажения времени стараются выполнить как можно позднее, но до начала обновления изображения на дисплее. Но работа алгоритма должна быть отдана на исполнение в GPU несколькими миллисекундами ранее, так как без быстрого прерывания нет возможности точно выполнить работу в нужный момент, и GPU простаивает некоторое время.
async_vr.png
В случае точного прерывания на уровне пикселей и потоков (на иллюстрации справа), такая возможность дает большую точность в определении момента прерывания, и асинхронное искажение времени может быть запущено значительно позже с уверенностью в завершении работы до начала обновления информации на дисплее. А простаивающий некоторое время в первом случае GPU можно загрузить какой-то дополнительной графической работой.

Технология мультипроецирования Simultaneous Multi-Projection

В новом графическом процессоре GP104 появилась поддержка новой технологии мультипроецирования (Simultaneous Multi-Projection — SMP), позволяющей GPU отрисовывать данные на современных системах вывода изображения более эффективно. SMP позволяет видеочипу одновременно выводить данные в несколько проекций, для чего потребовалось ввести новый аппаратный блок в GPU в состав движка PolyMorph в конце геометрического конвейера перед блоком растеризации. Этот блок отвечает за работу с несколькими проекциями для единого потока геометрии.
multi_diag.png
Движок мультипроецирования обрабатывает геометрические данные одновременно для 16 заранее сконфигурированных проекций, объединяющих точку проекции (камеры), эти проекции можно независимо вращать или наклонять. Так как каждый геометрический примитив может появиться одновременно в нескольких проекциях, движок SMP обеспечивает такую функциональность, позволяя приложению дать инструкции видеочипу для репликации геометрии до 32 раз (16 проекций при двух центрах проецирования) без дополнительной обработки.
Весь процесс обработки аппаратно ускорен, и так как мультипроецирование работает после геометрического движка, ему не нужно повторять несколько раз все стадии обработки геометрии. Сэкономленные ресурсы важны в условиях ограничения скорости рендеринга производительностью обработки геометрии, вроде тесселяции, когда одна и та же геометрическая работа выполняется несколько раз для каждой проекции. Соответственно, в пиковом случае, мультипроецирование может сократить необходимость в обработке геометрии до 32 раз.
Но зачем все это нужно? Есть несколько хороших примеров, где технология мультипроецирования может быть полезной. Например, многомониторная система из трех дисплеев, установленных под углом друг к другу достаточно близко к пользователю (surround-конфигурация). В типичной ситуации сцена отрисовывается в одной проекции, что приводит к геометрическим искажениям и неверной отрисовке геометрии. Правильным путем является три разных проекции для каждого из мониторов, в соответствии с углом, под которым они расположены.
multi_monitors.jpg
При помощи видеокарты на чипе с архитектурой Pascal это можно сделать за один проход геометрии, указав три разные проекции, каждая для своего монитора. И пользователь, таким образом, сможет менять угол, под которым расположены мониторы друг к другу не только физически, но и виртуально — поворачивая проекции для боковых мониторов, чтобы получить корректную перспективу в 3D-сцене при заметно более широком угле обзора (FOV). Правда, тут есть ограничение — для такой поддержки приложение должно уметь отрисовывать сцену с широким FOV и использовать специальные вызовы SMP API для его установки. То есть, в каждой игре так не сделаешь, нужна специальная поддержка.
В любом случае, времена одной проекции на единственный плоский монитор прошли, теперь много многомониторных конфигураций и изогнутых дисплеев, на которых также можно применять эту технологию. Не говоря уже о системах виртуальной реальности, которые используют специальные линзы между экранами и глазами пользователя, что требует новых техник проецирования 3D-изображения в 2D-картинку. Многие из таких технологий и техник еще в начале разработки, главное, что старые GPU не могут эффективно использовать более чем одну плоскую проекцию.