Разное

База данных наткол: Nutcall — search system for journalists

5 ресурсов, где искать контакты журналистов

Как журналисту и ньюсмейкеру найти друг друга в нужный момент? Эпоха массированных телефонных обзвонов и слепого поиска журналиста, который готовит материал именно по вашей тематике, уходит в прошлое. На смену приходят интернет-сервисы, где искать контакты журналистов в разы быстрее и удобней. Рассказываем о нескольких площадках, об их создателях и о том, какую ценность они продают.

HARO (Help A Reporter Out)

Сайт: helpareporter.com
Пользователей: 800 000
Журналистов (по данным ресурса): 7 %
Монетизация: платная подписка для пиарщиков на запросы журналистов

HARO — на сегодня самый популярный в мире ресурс, который работает на стыке интересов журналистов и пиарщиков. Если вы заинтересованы в международных публикациях, то подписка на HARO для старта такой работы — то, что нужно.

Идея создания сервиса пришла в голову американцу Питеру Шенкману в 2008 году. Его история началась с рассылки и группы в Facebook. Питер собирал запросы журналистов и по собственным каналам рассылал пиарщикам, подписанным на сервис. Позже он запустил сайт, который автоматизировал этот процесс. Сегодня HARO позволяет пиарщикам получать огромное количество запросов от англоязычных журналистов со всего мира — порядка 150 в день. Ответить на запрос можно, отправив комментарии на сгенерированный email. Комментарии автоматически пересылаются журналисту.

Особенность сервиса — отсутствие «личного кабинета», где отражается история контакта с запросами и питчами, работа ведется при помощи электронной почты.

Nutcall

Сайт: nutcall.com 
Пользователей: десятки тысяч, точное число администрация портала не раскрывает
Журналистов (по данным ресурса): 80 %
Монетизация: платные опции, в числе которых — доступ к базе контактов и ее редактированию, размещение пресс-релизов, анонсов мероприятий, продвижение публикаций

Проект создан в 2011 году. Его цель — сбор и поддержка актуальной базы контактов «знаменитостей, чиновников, журналистов и просто полезных обществу людей» — цитата из официального описания сервиса. Верифицированные пользователи Nutcall могут искать контакты в имеющейся базе и добавлять новые. При этом можно вести не только общую базу, но и свою собственную, закрытую от других пользователей.

Об истории проекта и его основателях известно мало. Не раскрывает администрация сервиса и показателей, по которым можно было бы оценить интерес к нему со стороны медиа.

Официальный представитель Nutcall, пожелавший остаться неназванным, рассказал PRexplore, что на сайте зарегистрированы представители всех крупных СМИ мира, примерно 70% пользователей — из России.

Среднее количество журналистских запросов на сервисе отследить сложно. В момент подготовки материала в разделе «Трибуна» Nutcall было размещено 18 запросов, рассчитанных на длительные сроки — от двух недель до нескольких лет (в среднем дедлайн запросов — около месяца). Топовых СМИ не замечено, как и ответов на имеющиеся запросы.

База СМИ PREX

Сайт: prex.ru
Пользователей: база открылась в 2018 году, число пользователей активно растет
Количество СМИ (по данным ресурса): более 11 000
Монетизация: доступ к базе СМИ бесплатный; платный аккаунт открывает функции CRM-системы для рассылки пресс-релизов и работы с пулами журналистов.

База создана командой интернет-сервиса для PR-профессионалов PREX и является одной из крупнейших открытых баз СМИ на российском рынке. 

В базе можно найти контакты редакций печатных изданий, телеканалов, радиостанций, онлайн-медиа и YouTube-блогеров. Пользователям также доступна информация о тематике и форматах медиа, размере аудитории и типе распространения. С помощью специальной функции можно искать журналистов нужного издания на Facebook.

Все СМИ в базе имеют показатель Coverage Rank. Он отражает уровень охвата аудитории конкретного медиа. Можно наглядно отличить «маленькие» СМИ от «больших». 

Одна из отличительных особенностей базы — функции коллаборации, которые позволяют актуализировать данные силами профессионального сообщества. Пользователи базы могут добавлять новые медиа и корректировать информацию о существующих. Все изменения проходят через модераторов, которые связываются со СМИ для уточнения данных. 

В будущем разработчики планируют охватить еще больше изданий и расширить информацию о медиа.

Pressfeed

Сайт:  pressfeed.ru
Пользователей: 32 000
Журналистов (по данным ресурса): 20 %
Монетизация: платные аккаунты для PR-специалистов и ньюсмейкеров, которые дают расширенные возможности; дополнительные услуги, в том числе PR-обслуживание

Создатель сервиса Константин Бочарский рассказывает, что впервые попытался автоматизировать процесс коммуникаций с ньюсмейкерами в 2006 году: «Я вел список адресов пиарщиков, которые хотели бы получать запросы от редакции „Секрета Фирмы“, и отправлял по этой базе вопросы к своим заметкам и заметкам коллег. Занимался этим около года, постепенно наращивая базу ньюсмейкеров. Потом бросил».

Бочарский вернулся к идее в 2013 году. Отчасти за основу взял уже получивший на тот момент известность HARO. В результате был создан Pressfeed. Сервис по-прежнему находится в активном развитии. Сейчас команда работает над мобильным приложением, в планах — выход на международный рынок.

Ежедневно на Pressfeed доступно от 100 до 200 запросов журналистов СМИ, в том числе и от топовых. В день на сервис поступает в среднем 50-70 новых запросов, в месяц число запросов доходит до 1500.

Особенность сервиса в том, что он разрабатывался в первую очередь под нужды пишущих журналистов, благодаря чему быстро завоевал популярность на российском рынке, став полезным и для пиарщиков.

HackPack

Сайт: hackpack.press
Пользователей: 8100 в мире/1000 в России
Журналистов и редакторов (по данным ресурса): 62,5 %
Монетизация: платные опции для пиарщиков, в том числе размещение пресс-релизов, анонсов мероприятий, продвижение публикаций

Сервис создал американец Джастин Варилек. Поработав журналистом и пиарщиком в Москве и США, в 2014 году он решил основать собственный ресурс, задача которого — поиск на временную или постоянную работу специалистов из мира медиа в другой стране.

Как рассказал PRexplore основатель сервиса, акцент HackPack сделан на возможности искать и нанимать творческих специалистов. «Например, в тех случаях, когда изданию требуется корреспондент или фотограф на месте событий или компания хочет нанять редактора, пишущего фрилансера для ведения блога, перевода, наполнения сайта», — поясняет Джастин Варилек.

Попутно пиарщики могут публиковать на ресурсе анонсы мероприятий, пресс-релизы и другие материалы. Эта информация попадает в рассылки и ленту, которые можно настраивать под свои интересы. Возможность разместить журналистский запрос и получить ответы на него на HackPack тоже есть, но пока она не пользуется популярностью. Джастин утверждает, что со временем планирует усовершенствовать эту опцию и другие направления, полезные для развития журналистики и СМИ.

Особенность сервиса — упор на «интернациональность». HackPack развивается сразу в 125 странах. Сейчас основная аудитория ресурса — Россия, Украина, Индия, США.

Группы в Facebook

В русскоязычном Facebook действует несколько сообществ-тысячников, которые призваны налаживать коммуникации в медиасфере.

PR_Russia: 23 000 участников
Пиарщики и маркетологи России: 53 000 участников

Самые масштабные сообщества. Однако большое количество пользователей — это одновременно и плюс, и минус этих групп. Публика тут собирается неоднородная. Размещение запроса на комментарии здесь — сомнительная затея, на которую решаются только самые отчаянные журналисты. На запрос можно получить и десятки ответов без смысловой нагрузки, и совсем ничего, в зависимости от темы, времени размещения и заметности сообщения в общем хаотичном треде. Так что в основном площадки используются для обсуждения PR-кейсов и поиска контактов. В частности, в обеих группах есть много предложений сотрудничества по организации мероприятий, производству сувенирной продукции и т. д.

Помогите журналисту: 8400 участников
Более специализированная группа. Названию соответствует: размещать посты здесь разрешено только тем, кто имеет отношение к журналистике. Пресс-релизы, предложения тем и анонсы мероприятий удаляются модераторами. Но по факту журналистских запросов здесь мало. В основном ресурс используют телевизионные продюсеры и редакторы, ищущие места для съемок и героев телешоу.

Самые успешные организаторы коммуникации журналистов и пиарщиков в Facebook — профильные группы, которые объединяют медиаспециалистов по сфере деятельности.

REPA/Rеаl Estate Professionals Association: 3200 участников
Одно из самых «живых» сообществ в русскоязычном Facebook. Площадка объединяет экспертов и журналистов рынка недвижимости.

PR in beauty: 3800 участников
Очень активная группа, где общаются эксперты, блогеры и журналисты, работающие в сфере красоты и здоровья.

Куда бы вы ни отправились в поиске новых контактов в СМИ, помните, что пиарщик должен помогать журналисту. Если предложить вам особенно нечего, вы не располагаете интересными данными или сокровенными знаниями о трендах в своей сфере, то, возможно, стоит начать именно с этого? Создавайте инфоповоды, исследуйте рынок, повышайте уровень спикеров. На удобренной почве качественного контента взращивать добротные отношения с медиа куда проще, чем на голых камнях.

Базы СМИ, которые помогут быстро связаться с журналистом

Pressfeed рассказывает про базы СМИ, которые помогут быстро подобрать издания, пишущие на вашу тематику, найти подробную информацию о них, а также контакты журналистов.

Фото: Фотобанк Фотодженика

Более 100 млн статей русскоязычных СМИ.

Более 15 тыс. СМИ.

Более 100 тыс. новых документов ежедневно.

Ресурс предоставляет доступ к каталогу СМИ: газетам, журналам, информагентствам, интернет-изданиям, телеканалам, радиостанциям. Список представляет перечень СМИ, размещенных в алфавитном порядке. Можно самостоятельно проводить мониторинг СМИ.

На сайте также размещены исследования различных областей медиасферы.

1500 журналистских запросов публикуется в месяц.

База СМИ, которые пользуются Pressfeed, составляет 3200 редакций.

Сервис журналистских запросов. Помогает экспертам и пиарщикам получить упоминание в СМИ, а журналистам быстро собрать фактуру для статьи.

Принцип работы сервиса прост: журналисты оставляют свои запросы на сайте, а эксперты в ответ присылают комментарии. Пиарщик или эксперт может найти профильную тему, узнать, о чем пишут журналисты, какие комментарии, истории им нужны, и стать героем публикации. Кроме того, PR-менеджер может опубликовать пресс-релиз в специальном разделе сервиса. Обговорить с журналистом все детали по статье можно в чате.

В разделе «Рейтинги» можно найти списки СМИ — федеральные, региональные и отраслевые. Также «Медиалогия» составляет рейтинги журналистов, блогеров, бизнесменов, чиновников и т. д. Рядом с каждым рейтингом указана методика его построения.

Сервис содержит базы СМИ со всего мира, издаваемые на английском языке. К примеру, Россия здесь тоже есть, но представлена только теми изданиями, у которых есть англоязычная версия: Медуза, Новая газета, Интерфакс, ТАСС, Спутник и т. д.

Издания рассортированы по странам. Также можно вести поиск по отраслевой тематике или по специализации СМИ – например, мировые новости, спорт, ИТ, бизнес и т. д.

Смотрите также:
Как опубликовать статью в СМИ бесплатно

Это не совсем база СМИ, но тоже очень полезный сервис. Nutcall — сообщество журналистов и пиарщиков. Зарегистрировавшись здесь, журналисты получают доступ к каталогам пресс-служб, контактам экспертов, предложениям тем и сюжетов от пиарщиков. Пиарщики, соответственно, получают возможность размещать свои предложения, предлагать героев для публикаций, а также связываться напрямую с журналистами, редакторами, фотографами, стрингерами, причем из разных стран.

Где искать контакты журналистов и как наладить взаимодействие со СМИ

Специалисты по связям с общественностью часто выкладывают сообщения вроде: «Help me! Нужна база контактов». Сразу заметим: такая просьба — не лучшим образом характеризует его профессиональные качества. Ведь наработанные контакты всегда бесценны. А значит, вряд ли найдется филантроп, который готов будет поделиться ими бесплатно. Потому все придется делать самим. С чего начать? Об этом и поговорим.

Сайты средств массовой информации

Некоторые СМИ, например, Marie Claire, «Генеральный директор» или Harvard Business Review публикуют контакты журналистов и редакторов на своих ресурсах. И это не исключение из правил: журналисты заинтересованы в сотрудничестве с экспертами и из разных сфер деятельности и с теми, кто может предложить интересный материал для публикаций. Вам необходимо только грамотно написать письмо, чтобы наладить связь: возможно, это будет первым шагом к плодотворному сотрудничеству.

Соцсети

Здесь полезными могут оказаться профессиональные сообщества — группы людей, увлеченных своим делом. Самые популярные, на наш взгляд, — Герои и эксперты для СМИ и Дорогая передача! Нередко они используют статус «Закрытая группа», что означает: получить доступ можно, лишь обратившись к администратору. Сделайте это! Напишите сообщение, в котором расскажите о том, почему хотите стать членом группы. И перед вами откроется безграничная возможность просматривать запросы представителей СМИ, которые ищут героев и экспертов для публикаций. Пролистывайте стену, отмечайте то, что заинтересовало, а главное — не ленитесь делать для себя копипасты имен журналистов и ссылок на их личные страницы.

Добавив несколько заинтересовавших вас групп в Facebook, получите бонус от этого ресурса: с помощью встроенного алгоритма он будет предлагать сообщества, которые могут вас заинтересовать. Откройте версию, предназначенную для работы на ПК: справа на боковой панели любой группы расположены рекомендации, сгенерированные специально для вас. Можете не благодарить.

Специализированные сервисы

Полезными могут быть сервис журналистских запросов Pressfeed, профессиональная соцсеть для специалистов в области медиа и коммуникаций в лице журналистов, блогеров Deadline. Media и проект Nutcall, который создан в помощь СМИ, PR- и event-менеджерам, а также тем, кому нужны контакты звезд, чиновников, журналистов и других публичных фигур.

Если пока вы не имеете возможности пользоваться платными сервисами, используйте ресурсы этих порталов. Они позволят завязать контакты с интересующими вас представителями СМИ. Сделать это можно также, оставляя комментарии к запросам: хотя такой способ не самый эффективный, но шансы есть всегда.

Чаты с запросами от журналистов

Профессиональные чаты есть и в Telegram, и в WhatsApp, и в Facebook Messenge. Надо лишь, чтобы вас туда пригласили. Попросить содействие в этом у опытных коллег в соцсетях вполне уместно.

Old school

Такой метод подойдет тем, кому не удалось добиться результата перечисленными выше способами. Приобретите печатную версию издания (или скачайте pdf-версию), найдите страницу, на которой указано «Над номером работали» — и аккуратно выпишите фамилию и имя нужного журналиста, а затем отыщите его аккаунт в соцсетях. Все просто!

И не забывайте: все в наших силах, надо только разделить задачу на осуществимые этапы. Если вы мечтаете, чтобы ваша публикация попала на страницы топовых СМИ, — задайтесь целью и действуйте. Единственное, что стоит у вас на пути — мысль о том, что она неосуществима. Но кто сказал, что это так?

В РОССИИ СОБРАЛИ КРУПНЕЙШУЮ В МИРЕ БАЗУ КТ-ИССЛЕДОВАНИЙ С ПРИЗНАКАМИ COVID-19

В РОССИИ СОБРАЛИ КРУПНЕЙШУЮ В МИРЕ БАЗУ КТ-ИССЛЕДОВАНИЙ С ПРИЗНАКАМИ COVID-19 29.04.2020 11:58

Исследователи из Центра диагностики и телемедицины Департамента здравоохранения города Москвы собрали датасет, в который вошло более тысячи наборов компьютерных томограмм органов грудной клетки пациентов с рентгенологическими признаками COVID-19. На сегодняшний день это самая обширная и полностью обезличенная база КТ-исследований, аналогов которой нет ни в России, ни в мире. Она доступна для скачивания и может использоваться для разработки сервисов на основе технологий искусственного интеллекта.

Ранее ученые Центра диагностики и телемедицины уже сообщали о том, что собрали первую базу данных, содержащую КТ-исследования пациентов с лабораторно подтвержденной инфекцией. В ней находилось около 50 томограмм от 20 пациентов. Нынешняя база данных в 20 раз больше. В ней находится более 1000 обезличенных наборов компьютерных томограмм органов грудной клетки. Исследования собраны в Москве за период с 1 марта по 25 апреля 2020 года при помощи Единого радиологического информационного сервиса (ЕРИС). К ЕРИС подключено диагностическое оборудование 80 учреждений московского здравоохранения.

На сегодняшний день база данных уникальна и не имеет аналогов даже в мировой практике. Например, в датасете, собранном в Университете Сан-Диего, находится 349 КТ-снимков (единичных) от 216 пациентов, в то время как в датасете, собранном в Москве, содержатся трехмерные КТ-исследования. Набор случаев RAIOSS & Livon Saúde пока содержит 10 компьютерных томограмм. В постоянно пополняемой базе данных Итальянского радиологического общества уже более 70. Коллекция же случаев новой коронавирусной инфекции Североамериканского радиологического общества разрозненна и подходит лишь для ознакомления. Есть база данных также у Британского общества торакальной радиологии, но и она содержит не более сотни исследований.

Количество случаев – не единственное кардинальное отличие российской базы данных от зарубежных. Все КТ-исследования в московском датасете имеют специальную разметку. Эта разметка сделана согласно классификации, отражающей объем патологических изменений в легочной ткани при COVID-19 по данным компьютерной томографии органов грудной клетки. Она делит исследования на пять больших групп: от КТ-0 (норма и отсутствие КТ-признаков вирусной пневмонии) до КТ-4 (распространенное уплотнение легочной ткани по типу «матового стекла», вовлечение более 75% легкого). Классификация, легшая в основу разметки, была опубликована в методических рекомендациях по лучевой диагностике коронавирусной болезни COVID-19.

По словам экспертов Центра диагностики и телемедицины, база данных с подготовленными компьютерными томограммами в «исследовательском» формате NIFTI предназначена для разработки алгоритмов искусственного интеллекта. Целостная разметка кейсов подходит для подготовки автоматических систем сортировки пациентов. Разметка локализаций (те зоны интереса, внутри которых алгоритмы искусственного интеллекта должны выявлять патологию) может использоваться в обучении тех сервисов, которые создаются для помощи врачу-рентгенологу, указывая на «подозрительные» места в компьютерных томограммах. Разметку оконтуривания патологии можно применять для автоматической количественной оценки поражения легкого, а также для оценки изменений, произошедших между двумя КТ-исследованиями одного пациента.

Кроме этого  эксперты Центра детально разметили 50 исследований (5% от общего массива), где на каждом срезе, имеющем повреждение легочной ткани, характерное для COVID-19, обозначены пиксели зон «матового стекла» и консолидации (уплотнения). Для искусственного интеллекта это наиболее высокоинформативный тип разметки данных изображений компьютерной томографии.

«Преимущество датасета еще и в том, что все содержащиеся в нем КТ-исследования выполнены в медицинских организациях, оказывающих первичную медико-санитарную помощь взрослому населению. Помимо этого, он выложен в открытый доступ, а компьютерные томограммы с тонкими срезами до 1 мм уже конвертированы в признанный среди профессионалов машинного обучения формат NIFTI», — отмечает Сергей Морозов, главный внештатный специалист по лучевой и инструментальной диагностике ДЗМ, директор Центра диагностики и телемедицины.

Создание российского датасета компьютерных томограмм пациентов с признаками COVID-19 стало частью большого московского эксперимента по использованию компьютерного зрения в лучевой диагностике, который стартовал в феврале и продлится до конца этого года. Всю подробную информацию можно узнать на сайте проекта.


Подборка датасетов для машинного обучения / Хабр

Привет, читатель!

Перед тобой статья-путеводитель по открытым наборам данных для машинного обучения. В ней я, для начала, соберу подборку интересных и свежих (относительно) датасетов. А бонусом, в конце статьи, прикреплю полезные ссылки по самостоятельному поиску датасетов.

Меньше слов, больше данных.

  • Данные смертей и сражений из игры престолов — этот набор данных объединяет три источника данных, каждый из которых основан на информации из серии книг.
  • Глобальная база данных терроризма — Более 180 000 террористических атак по всему миру, 1970-2017.
  • Биткойн, исторические данные — данные биткойнов с интервалом в 1 минуту с избранных бирж, январь 2012 г. — март 2019 г.
  • FIFA 19 полный набор данных игроков — 18k + FIFA 19 игроков, ~ 90 атрибутов, извлеченных из последней базы данных FIFA.
  • Статистика видео YouTube — ежедневная статистика трендовых видео на YouTube.
  • Обзор показателей самоубийств с 1985 по 2016 год — Сравнение социально-экономической информации с показателями самоубийств по годам и странам.
  • Huge Stock Market Dataset — исторические дневные цены и объемы всех американских акций и ETF.
  • Индикаторы мирового развития — показатели развития стран со всего мира.
  • Kaggle Machine Learning & Data Science Survey 2017 — Большое представление о состоянии науки о данных и машинного обучения.
  • Данные о насилии и оружии — полный отчет о более чем 260 тыс. американских инцидентов с применением оружия в 2013-2018 гг.
  • Рентгенография грудной клетки (пневмония) — 5,863 изображения, 2 категории.
  • Распознавание пола по голосу — эта база данных была создана, чтобы идентифицировать голос как мужской или женский, основываясь на акустических свойствах голоса и речи. Набор данных состоит из 3168 записанных голосовых сэмплов, собранных от мужчин и женщин.
  • Студенческое потребление алкоголя — данные были получены в ходе опроса учащихся по математике и португальскому языку на курсах в средней школе. Он содержит много интересной социальной, гендерной и учебной информации о студентах.
  • Набор данных о клетках малярии — сотовые изображения для выявления малярии.
  • Опросы молодых людей — данные о предпочтениях, интересах, привычках, мнениях и страхах молодых людей.
  • Мировые рейтинги университетов — исследуйте лучшие университеты мира.
  • Обнаружение мошенничества с кредитными картами — датасет по анонимным транзакциям кредитных карт, помеченные как мошеннические или подлинные.
  • Датасет болезней сердца — эта база данных содержит 76 атрибутов, таких как возраст, пол, тип боли в груди, артериальное давление в покое и другие.
  • Европейская футбольная база — 25 000+ матчей, атрибуты игроков и команд для европейского профессионального футбола.
  • Винные обзоры — 130k винных обзоров с разнообразием, местоположением, винодельней, ценой и описанием.
  • Baidu Apolloscapes. Большой датасет для распознавания 26 семантически разных объектов вроде машин, велосипедов, пешеходов, зданий, уличных фонарей и т. д.
  • Comma.ai. Более семи часов езды по шоссе. Датасет включает информацию о скорости машины, ускорении, угле поворота руля и GPS-координатах.
  • Распознавание цветов — этот набор данных содержит 4242 изображения цветов. Сбор данных основан на данных flicr, изображениях Google, изображениях Яндекса.
  • Ежедневная рыночная цена каждой криптовалюты — исторические цены на криптовалюту для всех токенов.
  • Шоколадный рейтинг — Экспертный рейтинг более 1700 шоколадных батончиков.
  • Рынок медицинского страхования — данные о планах в области здравоохранения и стоматологии на рынке медицинского страхования США.
  • Звуки сердцебиения — классификация аномалий сердцебиения по стетоскопу.
  • База данных аниме рекомендаций — рекомендации от 76 000 пользователей на myanimelist.net
  • Изображения клеток крови — 12 500 изображений: 4 разных типа клеток.
  • Рентгенография грудной клетки — более 112 000 рентгенограмм грудной клетки от более чем 30 000 уникальных пациентов.
  • Отчеты об убийствах, 1980-2014 гг. — проект «Ответственность за убийства» — самая полная база данных об убийствах в Соединенных Штатах, доступных в настоящее время.
  • База данных подержанных автомобилей — более 370000 подержанных автомобилей. Содержание данных на немецком языке, поэтому нужно сначала перевести их, если вы не говорите на немецком.
  • Дом открытых данных правительства США — данные, инструменты и ресурсы для проведения исследований, разработки веб-приложений и мобильных приложений, разработки визуализаций данных.
  • Национальный центр профилактики хронических заболеваний и укрепления здоровья (NCCDPHP). Центр работает над снижением факторов риска хронических заболеваний.
  • Крупнейший в Великобритании сборник социальных, экономических и демографических ресурсов.
  • EconData — несколько тысяч экономических временных рядов, подготовленных рядом правительственных учреждений США и распространенных в различных форматах и ​​СМИ.
  • Центр исследования побережья — интересные данные о море и его биологическом составе. Здесь можно найти датасеты начиная с анализа данных модели Красного моря до исследования температуры и течений над узким южным калифорнийским шельфом.
  • Набор данных цифр языка жестов — Турция, Анкара, Айранджи, Анадолу. Набор данных о языке жестов средней школы.
  • Качество красного вина — простой и понятный практический набор данных для регрессионного или классификационного моделирования.
  • Таблицы английской футбольной премьер-лиги (1968-2019).
  • HotspotQA Dataset — датасет с вопросами-ответами, позволяющий создавать системы для ответов на вопросы более понятным способом.
  • xView — один из самых больших общедоступных наборов воздушных снимков земли. Он содержит изображения различных сцен со всего мира, аннотированных с помощью ограничительных рамок.
  • Labelme — Большой датасет аннотированных изображений.
  • ImageNet — Датасет изображений для новых алгоритмов, организованный в соответствии с иерархией WordNet, в которой сотни и тысячи изображений представляют каждый узел иерархии.
  • LSUN. — датасет изображений, разбитых по сценам и категориям с частичной разметкой данных.
  • MS COCO — крупномасштабный датасет для обнаружения и сегментации объектов.
  • COIL100 — 100 разных объектов, изображённых под каждым углом в круговом обороте.
  • Visual Genome — датасет с ~100 тыс. подробно аннотированных изображений.
  • Google’s Open Images. — коллекция из 9 миллионов URL-адресов к изображениям, «которые были помечены метками, охватывающими более 6000 категорий» под лицензией Creative Commons.
  • Labelled Faces in the Wild — набор из 13 000 размеченных изображений лиц людей для использования приложений, которые предполагают использование технологии распознавания лиц.
  • Stanford Dogs Dataset — содержит 20 580 изображений из 120 пород собак.
  • Indoor Scene Recognition. — датасет для распознавания интерьера зданий. Содержит 15 620 изображений и 67 категорий.
  • Oxford’s Robotic Car — более 100 повторений одного маршрута по Оксфорду, заснятого в течение года. В датасет попали разные комбинации погодных условий, трафика и пешеходов, а также более длительные изменения вроде дорожных работ.
  • Cityscape Dataset — большой датасет, содержащий записи ста уличных сцен в 50 городах.
  • KUL Belgium Traffic Sign Dataset — более 10 000 аннотаций тысяч разных светофоров в Бельгии.
  • LISA Laboratory for Intelligent & Safe Automobiles — датасет с дорожными знаками, светофорами, распознанными средствами передвижения и траекториями движения.
  • Bosch Small Traffic Light Dataset — датасет с 24 000 аннотированных светофоров.
  • WPI datasets — датасет для распознавания светофоров, пешеходов и дорожной разметки.
  • Berkeley DeepDrive — огромный датасет для автопилотов. Он содержит более 100 000 видео с более чем 1100 часами записей вождения в разное время дня и в различных погодных условиях.
  • MIMIC-III — датасет с обезличенными данными о состоянии здоровья ~40 000 пациентов, находящихся на интенсивной терапии (демографическими данными, показатели жизнедеятельности, лабораторными анализами и лекарствами).
  • Amazon Reviews — Содержит около 35 млн отзывов с Amazon за 18 лет. Данные включают информацию о продукте и пользователе, оценки и сам текст отзыва.
  • Конечно же Kaggle — место встречи всех любителей соревнований по машинному обучению.
  • Google Dataset Search — поиск датасетов по всей сети интернет. Также, при необходимости можно добавить свои наборы данных.
  • Machine Learning Repository — набор баз данных, теорий предметной области и генераторов данных, которые используются сообществом машинного обучения для эмпирического анализа алгоритмов машинного обучения.
  • VisualData — поиск датасетов для машинного зрения, с удобной классификацией по категориям.
  • DATA USA — полный набор по общедоступным данным США c визуализацией, описанием и инфографикой.

На этом наша короткая подборка подошла к концу. Если у кого-то есть, что дополнить или поделиться — пишите в комментариях.

Всем знаний!

Подпишись на канал «Нейрон» в Телеграме (@neurondata) ― там свежие статьи и новости из мира науки о данных появляются каждую неделю. Спасибо всем, кто помогает с полезными ссылками, особенно Игорю Мариарти, Андрею Бондаренко и Матвею Кочергину.

: Технологии и медиа :: РБК

РБК направил запрос в департамент информационных технологий Москвы.

В Twitter МИДа появилось сообщение о продаже базы данных туристов

Читайте на РБК Pro

Руководитель Общественного штаба по контролю и наблюдению за общероссийским голосованием в Москве Илья Массух заявил «РИА Новости», что на продажу выставлены недействительные данные. «Мы выделяли несколько семплов, которые выставлены к покупке, выяснилось, что данные паспортов, фамилии абсолютно не совпадают, таких людей не было на электронном голосовании. Я бы сказал, что их и в природе нет. Во всяком случае, несколько примеров, которые к нам попали, они такими оказались», — отметил Массух.

Об утечке персональных данных участников электронного голосования по поправкам в Конституцию месяц назад сообщило Meduza. Сотрудники издания воспользовались специальной программой, представленной в виде небольшого исполняемого файла degvoter.exe. С ее помощью члены УИК могли точно выяснить, записывался ли конкретный гражданин в интернет-избиратели и проголосовал ли он в итоге дистанционно. Журналисты смогли беспрепятственно получить доступ к базе данных db.sqlite, в которой находились закодированные паспортные данные проголосовавших.

Позже глава департамента информационных технологий (ДИТ) Москвы Эдуард Лысенко в беседе с РБК прокомментировал материал Meduza об утечке данных. По его словам, описанное изданием приложение было создано Минкомсвязью для того, чтобы можно было проверить, проголосовал житель Москвы или Нижегородской области дистанционным способом или нет. Благодаря этому тот, кто зарегистрировался на электронное голосование, но по какой-то причине не принял в нем участие, мог проголосовать очно на избирательном участке 1 июля.

Прокуратура проверит сообщения об утечке базы данных автомобилистов

Как отметил Лысенко, данные в этом приложении были защищены в достаточной мере, распространялись только с определенными требованиями по соблюдению конфиденциальности, хранились исключительно в зашифрованном виде. Те, кто передал их Meduza, совершили ряд правонарушений, а оценку этому должны давать правоохранительные органы, говорил он.

Основатель DeviceLock Ашот Оганесян подтвердил «Коммерсанту», что в даркнет утекла база данных именно с паспортными данными голосовавших по поправкам. «Это та же самая база, что распространялась в открытом доступе после расследования Meduza и содержащая расшифрованные номера паспортов, используемые приложением, разработанным для членов участковых избирательных комиссий, в преддверии голосования по поправкам к Конституции. Из базы удалены около 6 тыс. номеров, которые, вероятно, относятся к недействительным», — сказал он. По его словам, смысла в ее покупке нет, так как при желании базу можно найти бесплатно, но по ней злоумышленники потенциально могут рассылать участникам голосования фишинговые письма с предложениями призов.

ЦИК назвала два новых региона для онлайн-голосования осенью

В даркнете нашли базу данных, содержащую более 1 400 000 000 учетных данных — «Хакер»

В начале декабря 2017 года аналитики компании 4iQ обнаружили в даркнете огромную интерактивную базу, объединяющую воедино 252 различные утечки данных. База, чьей суммарный объем превышает 41 Гб, регулярно обновляется и предлагает своим пользователям более 1,4 млрд учетных данных в формате простого текста. Кто именно является составителем этого дампа неизвестно, автор оставил лишь свои кошельки Bitcoin и Dogecoin для пожертвований.

Основатель 4iQ Хулио Касаль (Julio Casal) пишет, что все пароли представлены в базе в незашифрованном виде и, согласно проведенному специалистам тестированию, многие из них до сих пор действительны. Хуже того, около 14% паролей, встречающихся в базе, ранее нигде не публиковались. Последнее обновление базы датировано 29 ноября 2017 года, по ней доступен поиск, импорт новых утечек и многие другие функции.

«Эта утечка почти вдвое превосходит предыдущий крупнейший случай раскрытия учетных данных: тогда на Exploit[.]in был опубликован сводный список из 797 млн учетных записей», — пишет Касаль.

В состав гигантской базы входят уже упомянутый сводный список с Exploit[.]in, еще одна сводная база учетных данных Anti Public,  а также 133 дополнительные крупные утечки, к примеру, LinkedIn, Netflix, Last.FM и YouPorn. Специалисты 4iQ пишут о 385 млн новых парах логин/пароль и 318 млн новых скомпрометированных пользователей. Ниже можно увидеть составленную исследователями таблицу самых часто встречающихся паролей.

 

FoodData Central

FoodData Central — это интегрированная система данных, которая предоставляет расширенные данные о профилях питательных веществ и ссылки на соответствующие сельскохозяйственные и экспериментальные исследования.

В настоящее время для просмотра на мобильных устройствах доступен только базовый вид результатов поиска. Расширенные функции фильтрации, такие как поиск по типу данных, еще не доступны для мобильных устройств и доступны только в представлении для ПК. Пользователям рекомендуется использовать настольный компьютер для поиска продуктов питания.

Первая годовщина FDC!

Новинки апреля 2020 г .:

  • 13% -ное увеличение Foundation Foods, что составляет примерно 100 образцов и 3000 анализов
  • 2015-2016 База данных пищевых продуктов и питательных веществ для диетических исследований уже доступна
  • Текущие ежемесячные обновления товаров в фирменных продуктах питания, начиная с апреля 2020 г.
  • Обновления API, расширяющие возможности поиска и извлечения данных
  • Обновленная документация Foundation Foods

FoodData Central выводит анализ, компиляцию и представление данных о питательных веществах и компонентах продуктов питания на новый уровень.FoodData Central:

  • Может использоваться множеством пользователей, включая исследователей, политиков, академиков и преподавателей, специалистов в области питания и здравоохранения, разработчиков продуктов и других, и имеет для них преимущества.
  • Включает пять различных типов данных, которые предоставляют информацию о пищевых продуктах и ​​профилях питательных веществ: Foundation Foods , База данных пищевых продуктов и питательных веществ для диетических исследований 2015-2016 гг. ( FNDDS 2015-2016 гг. ), Национальная база данных по питательным веществам для стандартной справочной версии устаревшей версии ( SR Legacy ), Глобальная база данных о пищевых продуктах Министерства сельского хозяйства США ( Фирменные продукты ) и Experimental Foods .Каждый из этих типов данных имеет уникальное назначение и уникальные атрибуты.
  • связывает эти различные типы данных в одном месте, тем самым укрепляя способность исследователей, политиков и других лиц решать жизненно важные вопросы, связанные с пищевыми продуктами, питанием и взаимодействием диеты и здоровья.
  • Обеспечивает полный обзор питательных веществ и других компонентов, содержащихся в самых разных пищевых продуктах и ​​продуктах питания.

Прежде чем начать, просмотрите страницу «О нас», чтобы получить важную информацию о типах данных FoodData Central и о том, как использовать эту систему.

Центр

FoodData Central находится в ведении Центра исследований питания человека в Белтсвилле Службы сельскохозяйственных исследований и размещается в Национальной сельскохозяйственной библиотеке.

Предлагаемая ссылка: Министерство сельского хозяйства США, Служба сельскохозяйственных исследований. FoodData Central, 2019. fdc.nal.usda.gov.

.

FoodData Central

FoodData Central — это интегрированная система данных, которая предоставляет расширенные данные о профилях питательных веществ и ссылки на соответствующие сельскохозяйственные и экспериментальные исследования.

В настоящее время для просмотра на мобильных устройствах доступен только базовый вид результатов поиска. Расширенные функции фильтрации, такие как поиск по типу данных, еще не доступны для мобильных устройств и доступны только в представлении для ПК. Пользователям рекомендуется использовать настольный компьютер для поиска продуктов питания.

Первая годовщина FDC!

Новинки апреля 2020 г .:

  • 13% -ное увеличение Foundation Foods, что составляет примерно 100 образцов и 3000 анализов
  • 2015-2016 База данных пищевых продуктов и питательных веществ для диетических исследований уже доступна
  • Текущие ежемесячные обновления товаров в фирменных продуктах питания, начиная с апреля 2020 г.
  • Обновления API, расширяющие возможности поиска и извлечения данных
  • Обновленная документация Foundation Foods

FoodData Central выводит анализ, компиляцию и представление данных о питательных веществах и компонентах продуктов питания на новый уровень.FoodData Central:

  • Может использоваться множеством пользователей, включая исследователей, политиков, академиков и преподавателей, специалистов в области питания и здравоохранения, разработчиков продуктов и других, и имеет для них преимущества.
  • Включает пять различных типов данных, которые предоставляют информацию о пищевых продуктах и ​​профилях питательных веществ: Foundation Foods , База данных пищевых продуктов и питательных веществ для диетических исследований 2015-2016 гг. ( FNDDS 2015-2016 гг. ), Национальная база данных по питательным веществам для стандартной справочной версии устаревшей версии ( SR Legacy ), Глобальная база данных о пищевых продуктах Министерства сельского хозяйства США ( Фирменные продукты ) и Experimental Foods .Каждый из этих типов данных имеет уникальное назначение и уникальные атрибуты.
  • связывает эти различные типы данных в одном месте, тем самым укрепляя способность исследователей, политиков и других лиц решать жизненно важные вопросы, связанные с пищевыми продуктами, питанием и взаимодействием диеты и здоровья.
  • Обеспечивает полный обзор питательных веществ и других компонентов, содержащихся в самых разных пищевых продуктах и ​​продуктах питания.

Прежде чем начать, просмотрите страницу «О нас», чтобы получить важную информацию о типах данных FoodData Central и о том, как использовать эту систему.

Центр

FoodData Central находится в ведении Центра исследований питания человека в Белтсвилле Службы сельскохозяйственных исследований и размещается в Национальной сельскохозяйственной библиотеке.

Предлагаемая ссылка: Министерство сельского хозяйства США, Служба сельскохозяйственных исследований. FoodData Central, 2019. fdc.nal.usda.gov.

.

RNAcentral Expert Databases

База данных Импорт Описание
5SrRNAdb

5SrRNAdb — это информационный ресурс о 5S рибосомных РНК.
CRS

CRS — это база данных консервативных мотивов РНК, идентифицированных компьютерным путем при выравнивании многовидовых позвоночных с использованием 2D-структуры.
CRW

CRW предоставляет сравнительную информацию о последовательности и структуре рибосомных, интронных и других РНК.
dictyBase

dictyBase — это база данных моделей организмов социальной амебы Dictyostelium discoideum.
ENA

ENA — это всеобъемлющая запись мировой информации о секвенировании нуклеотидов.
Ансамбль

Ensembl — это браузер генома для геномов позвоночных и модельных организмов, который поддерживает исследования в области сравнительной геномики, эволюции, вариации последовательностей и регуляции транскрипции.
Ensembl Fungi

Ensembl Fungi — это браузер генома для геномов грибов, который дополняет базу данных Ensembl
Ensembl Metazoa

Ensembl Metazoa — это браузер генома для геномов многоклеточных животных, который дополняет базу данных Ensembl.
Ансамбль Растения

Ensembl Plants — это браузер генома для геномов растений, который дополняет базу данных Ensembl.
Ensembl Protists

Ensembl Protists — это браузер генома для геномов протистов, дополняющий базу данных Ensembl.
FlyBase

FlyBase — это база данных генов и геномов дрозофилы.
GENCODE

GENCODE обеспечивает высококачественную аннотацию эталонных генов и экспериментальную проверку геномов человека и мыши
Генные Карты

GeneCards — это интегрированная база данных с возможностью поиска, которая предоставляет исчерпывающую и удобную информацию обо всех аннотированных и предсказанных генах человека.
Greengenes

Greengenes — это база данных полноразмерного гена 16S рРНК, которая обеспечивает тщательно подобранную таксономию, основанную на выводе дерева de novo.
GtRNAdb

GtRNAdb содержит предсказания генов тРНК для полных или почти полных геномов
HGNC

HGNC — это всемирный авторитет, который присваивает стандартизированную номенклатуру человеческим генам.
IntAct

IntAct предоставляет свободно доступную систему баз данных с открытым исходным кодом и инструменты анализа данных о взаимодействии молекул.Все взаимодействия основаны на изучении литературы или непосредственных представлениях пользователей.
LncBase

LncBase обеспечивает экспериментально подтвержденные и предсказанные с помощью вычислений мишени микроРНК на длинных некодирующих РНК
LncBook

LncBook — это тщательно подобранная база знаний о длинных некодирующих РНК человека.
LNCipedia

LNCipedia — это всеобъемлющий сборник длинных некодирующих РНК человека.
lncRNAdb

lncRNAdb — это база данных, содержащая исчерпывающие аннотации эукариотических длинных некодирующих РНК (lncRNA)
MalaCards

MalaCards объединяет вручную отобранные источники и источники текстового анализа, чтобы связать гены, включая нкРНК, с заболеваниями, и перечисляет подтверждающие доказательства
MGI

MGI — это международный ресурс базы данных по лабораторным мышам.
miRBase

miRBase содержит высококачественные аннотации miRNA; miRBase отвечает за присвоение официальных названий генов miRNA
MirGeneDB

MirGeneDB — это курируемая база данных генов микроРНК, охватывающая 45 организмов многоклеточных животных.
Модомика

Modomics — обширная база данных модификаций РНК.
NONCODE

NONCODE — это интегрированная база данных знаний, посвященная некодирующим РНК.
PDBe

PDBe — это европейское хранилище информации о трехмерных структурах больших биологических молекул.PDBe является членом Всемирного банка данных по белкам.
PomBase

PomBase — это комплексная база данных по делящимся дрожжам Schizosaccharomyces pombe.
RDP

RDP предоставляет выровненные и аннотированные последовательности рРНК с контролируемым качеством и набор инструментов анализа
RefSeq

RefSeq — это полный, интегрированный, неизбыточный, хорошо аннотированный набор эталонных последовательностей.
Рфам

Rfam представляет собой набор семейств некодирующих РНК, представленных вручную подобранными выравниваниями последовательностей, согласованными вторичными структурами и предсказанными гомологами.
RGD

RGD — это ресурс генетических и геномных исследований крыс.
SGD

SGD предоставляет исчерпывающую интегрированную биологическую информацию для бутонизированных дрожжей.
СИЛЬВА

SILVA — это всеобъемлющий ресурс для проверенных и согласованных данных о последовательностях рибосомных РНК.
snoDB

snoDB — это интерактивная база данных последовательностей snoRNA человека, численности и взаимодействий.
снипезный

snOPY предоставляет исчерпывающую информацию о snoRNA, их генных локусах, ортологах и их целевых РНК
База данных snoRNA

База данных snoRNA представляет собой тщательно подобранную коллекцию snoRNA архей, поддерживаемую лабораторией Lowe Lab в Калифорнийском университете в Санта-Крус.
SRPDB

SRPDB предоставляет выровненные, аннотированные и филогенетически упорядоченные последовательности, связанные со структурой и функцией SRP.
ТАИР

TAIR — это база данных генетических и молекулярно-биологических данных модельного высшего растения Arabidopsis thaliana.
TarBase

TarBase — это набор вручную отобранных экспериментально подтвержденных взаимодействий микроРНК-ген
tmRNA Веб-сайт

Веб-сайт тмРНК содержит предсказанные последовательности тмРНК из бактериальных геномов RefSeq, плазмид, фагов и некоторых органелл.
WormBase

WormBase собирает, хранит и отображает геномные и генетические данные о нематодах с упором на C.elegans и родственные нематоды
ZFIN

Информационная сеть по рыбкам данио (ZFIN) — это база данных генетических и геномных данных о рыбках данио (Danio rerio) как модельных организмах.
ZWD

ZWD — это основанная на git коллекция выравниваний некодирующих РНК, которую поддерживает доктор Заша Вайнберг.
miRTarBase miRTarBawse — это экспериментально подтвержденная база данных взаимодействий микроРНК-мишень
NPInter NPInter содержит данные об экспериментально определенных функциональных взаимодействиях между нкРНК и белками, мРНК или геномной ДНК.
piRBase piRBase — это веб-ресурс, помогающий функциональному исследованию piRNA
PLncDB PLncDB обеспечивает полное геномное представление днРНК Arabidopsis
РНК-путиDB РНК-пути: БД содержит пути созревания и распада РНК.
snoRNA Атлас snoRNA Atlas — это база данных snoRNA человека
sRNAmap sRNAmap — это набор последовательностей и взаимодействий sRNA
tmRDB tmRDB — это набор выровненных, аннотированных и филогенетически упорядоченных последовательностей, связанных со структурой и функцией тмРНК.
тРНКdb tRNAdb — это набор последовательностей тРНК и генов тРНК.

.

WORLD KLEMS Data

США
Япония, Выпущено в мае 2013 г.
, выпущено в июле 2012 г.
Россия
Данные по всем странам ЕС KLEMS доступны на веб-сайте EU KLEMS.
, выпущено в июле 2015 г.
Данные из базы данных China Industrial Productivity Database 2015 (CIP Database Round 3.0) можно загрузить с веб-сайта Исследовательского института экономики, торговли и промышленности, IAA (RIETI).
, Год выпуска 2014
Корейские данные также можно загрузить с веб-сайта Asia KLEMS.
, выпущено в декабре 2016 г.
Резервный банк Индии опубликовал данные о производительности на своем веб-сайте.
, выпущено в декабре 2012 г.
Компания ARKLEMS предоставила оценки МФП в целом по экономике Аргентины за 1990-2010 годы.Данные и методология опубликованы на их сайте.
Выпуски EU KLEMS в отраслевой классификации ISIC Rev.3
База данных EU KLEMS предлагает несколько выпусков в отраслевой классификации ISIC Rev.3 для 27 европейских стран, а также для ряда неевропейских стран, таких как как Австралия, Канада, Япония, Корея и США. Эти выпуски различаются периодом действия и переменным охватом.Также доступны агрегаты по географическим регионам. В выпуске за март 2008 года представлен самый широкий доступный набор переменных, включая декомпозицию роста валового выпуска за период 1970–2005 годов. Последним доступным выпуском по классификации ISIC Rev. 3 является выпуск от ноября 2009 г., обновленный в марте 2011 г. (09ii). В этом выпуске представлены данные за период 1970-2007 гг. И включены данные по списку 72 отраслей.
Постоянные обновления в отраслевой классификации пересмотра 4 МСОК
Версия EU KLEMS 2012 года является продолжением предыдущей версии 2009 года, в которой были показаны подробные отчеты о росте до 2007 года.Эта новая версия аналогична своим предшественникам по концепциям и методикам расчета различных переменных роста и производительности, но также имеет ряд новых функций; такие как внедрение новой отраслевой классификации (ISIC Rev. 4) и согласование с отраслевыми данными в базе данных структурного анализа ОЭСР. Обновления выполняются поочередно, от страны к стране, в зависимости от доступности данных и ограничений ресурсов.
, строится
Данные по Корее, Японии и Тайваню можно найти на веб-сайте Asia KLEMS.
Щелкните здесь, чтобы увидеть повестку дня последней встречи ASIA KLEMS.
Проект LA-KLEMS — это портал в Латинскую Америку и Карибский бассейн для получения информации об экономическом росте, производительности, создании рабочих мест, накоплении капитала и технологических изменениях. В рамках проекта генерируются статистические данные и другая важная информация, которые используются для оценки целей, связанных с производительностью и потенциалом экономического роста, а также для разработки политики продуктивного развития.
Бюро экономического анализа (BEA) вместе с Бюро статистики труда (BLS) опубликовали отраслевые оценки MFP за 1998–2014 годы для Соединенных Штатов в отраслевой классификации NAICS. Сайт
Австралийское статистическое бюро (ABS) опубликовало отраслевые оценки MFP за 1995-2013 годы для Австралии. Сайт
Статистическое управление Швеции предоставляет оценки многофакторной производительности (MFP), а также дополнительных переменных за период 1993–2012 годов.Сайт
Статистическое управление Финляндии публикует данные о росте производительности за период 1976–2012 годов. Сайт
Статистическое управление Дании публикует данные о росте производительности за период 1967–2010 годов. Сайт
ISTAT публикует показатели производительности.Сайт
Управление национальной статистики Великобритании (ONS) публикует оценки производительности и связанных переменных за период 1970-2009 гг. Сайт
Статистическое управление Нидерландов (CBS) публикует оценки MFP в своих счетах роста за период 1995-2011 гг. Сайт
Мексиканское национальное статистическое управление (INEGI) опубликовало отчет о производительности за 1990-2011 годы.В настоящее время эта информация доступна только на испанском языке. Сайт

.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *