Wos scrapping

Web of science - сбор данных публикаций (цитирования и JCR)#

Web of science внедрила на сайт (c июня 2025 г.) каптчу для предотвращения сбора данных. Эту каптчу не получается обойти автоматизированными средствами - можно только открыть web-страницу в браузере на обычном компьютере, чтобы каптча не показывалась. в связи с этим был разработан новый алгоритм сбора данных из Web of science, предусматривающий участие пользователя.

Для того, чтобы начать сбор данных, нужно выполнить следующие шаги (инструкция для браузера google chrome):

1) Перейти в Администрирование и открыть страницу "Задачи - Базы данных - Индексирование WOS" start_window

2) Перейти на страницу публикации в Wos по Ссылке. Откроется вкладка в браузере со страницей публикации wos_page

3) Открыть инструменты разработчика. Это можно сделать из меню (Иконка с тремя точками справа -> Дополнительные инструменты -> Инструменты разработчика), либо нажав клавишу F12 на клавиатуре. Откроется панель с инструментами. В ней нужно перейти на вкладку Application и слевы выбрать Cookies - https://www.webofscience.ru Откроется список cookies для сайта, в этом списке нужно пролистнуть вниз и найти cookies с названием (колонка name) WOSSID. Нужно скопировать значение cookie (колонка Value). Значение ввглядит примерно так - "EUW1ED0E2A1v2fDq0rKDGkGB6iooQ". cookies

4) Нужно запустить автообновление страницы, чтобы страница обновлялась каждые 20 секунд. Чтобы делать это автоматически, нужно установить плагин "Tab auto refresh" для браузера google chrome. После установки он повится в списке плагинов, и можно будет задать время автообновления: refresh

5) Полученный на шаге 3 идентификатор сессии нужно вставить в поле "Session ID" (на странице индексирования в Sciact) и нажать кнопку "Запустить". Система запустит процесс сбора данных, нужно наблюдать, что все работает штатно и без сбоев.