Парсинг озона ozon на js

Парсинг озона ozon на js

Рабочий парсер озон ozon на js без впн и закупки ip-адресов плюс видео с примером парсинга

Наша статья Парсинг страниц сайтов(html-контента) на php стала одной из самых популярных статей на нашем сайте, а также хорошо попала в топ поисковиков по запросам типа Парсинг сайтов на php.

Поэтому мы просто обязаны рассказать как можно парсить такие крупные ресурсы как озон, вайлдбериз и другие маркетплейсы.

На самом деле такие сайты почти ничем не отличаются от обычных сайтов - тот же html-код страниц. Крупные площадки заморачиваются над защитой, ставят ограничения и проверки к обращающимся к ним запросам. Например, озон с недавнего времени (~август 2022 года) установил cloudflare, который легко определяет автоматические запросы.

Не буду томить, приступим к примеру парсинга озон ozon. Парсер сделан на js, который автоматически проходит по уже заданным страницам озона и собирает данные в локальное хранилище, которое можно легко представить в таблице. Для автоматического обхода я дополнительно использую расширение браузера.

Вот пример кода с комментариями, который обходит ссылки продавцов озона и собирает количество оценок.

count = localStorage.getItem('count')

if( isNaN(count) || count == 0 ){ // в самом начале
//запускаем счетчик
localStorage.setItem('count', 0);
count = localStorage.getItem('count')

//создаем пустой стор в сторадже
head = 'Ссылка;Количество оценок';
localStorage.setItem('store', head);
}

ar = [
'https://ozon.ru/seller/devar-74603/profile',
'https://ozon.ru/seller/klasstorg-87346/profile',
'https://ozon.ru/seller/electro-city-720777/profile',
'https://ozon.ru/seller/s-d-853287/profile',
'https://ozon.ru/seller/generation-772300/profile',
]


//находим нужную инфу на странице
order1 = $('div.tsCaption:contains(Количество оценок)').next().text();

//записываем сторадж
if(
order1.length
){
a = localStorage.getItem('store')+"\n"+location.href+';'+order1;
localStorage.setItem('store', a);
}

console.info('Номер строки: '+count+' © hello-site.ru')

setTimeout(function(){
if( ar[parseInt(count)] ) {
location.href = ar[parseInt(count)];
} else {
console.info('Конец парсинга')
console.info(localStorage.getItem('store'))
}
}, 3500);

localStorage.setItem('count', parseInt(count) + 1);

Чтобы получить список продавцов озона я покажу в другой статье. Но на самом деле их легко собрать на странице всех продавцов категории на том же js и собрать в массив для обхода.

Смотрите пример на видео, если будут вопросы, пишите на почту.

ВИДЕО: