Back to Question Center
0

Semalt: 3 Hipanga Ki te Tukutuku Whārangi Tukutuku Whārangi

1 answers:

Kohikohi Tukutuku, e kiia ana ko te tango raraunga tukutuku, ko te kohikohinga tukutuku ranei, ko te te tukanga o te tango raraunga mai i te paetukutuku, i te rangitaki ranei. Ko enei korero ka whakamahia hei whakatau i nga tūtohu meta, nga whakaahuatanga meta, nga kupu matua me nga hononga ki te pae, me te whakapai ake i tana mahi i nga hua rapu engine.

E rua nga tikanga matua e whakamahia ana hei tango i nga raraunga:

  • Nga tuhinga tuhinga - Kei roto he tuhinga XML, HTML ranei e tahuri ana ki te DOM (Momo Ahanoa Tuhinga ) nga kōnae. Kei te whakarato a PHP i te torotoro DOM nui - free lawyers in ma.
  • Nga korero tawhito - He ara hei tuhi i nga raraunga mai i nga tuhinga tukutuku i runga i te ahua o nga korero o ia wa.

Ko te take me te raraunga tuhi o te paetukutuku tuatoru e hono ana ki tana mana pupuri mo te mea kaore koe i whakaaetia kia whakamahi i tenei raraunga. Engari ma te PHP, ka taea e koe te tuhi i nga raraunga me te kore raruraru e hono ana ki nga mana pupuri me te kounga iti. Hei kaiwhakarato PHP, ka hiahia pea koe i nga raraunga mai i nga paetukutuku rereke mo nga kaupapa coding. I konei kua whakamaramatia mai me pehea te tiki raraunga mai i etahi atu waahi, engari i mua i tera, me mahara kia tae mai ki te mutunga ka whiwhi koe i nga kōnae index.php ranei scrape.js.

Hipanga1: Waihanga Puka hei whakauru i te URL Paetukutuku:

Tuatahi, me hangahia te puka i index.php ma te pāwhiri i te pātene tuku, ka tomo ki te URL paetukutuku hei tango i nga raraunga.


Tāuruhia te paetukutuku URL Hei Scrape Raraunga

(44 )


Hipanga2: Hangaia te Mahi PHP kia Whakamahia nga Raraunga Tukutuku:

Ko te taahiraa tuarua ko te hanga Mahihia te mahi PHP i te kōnae scrape.php hei awhina i te raraunga me te whakamahi i te puna URL. Ka taea hoki e koe te hono me te whakawhitiwhiti korero me nga kaiwhakarato rereke, me nga kawa me te kore he take..

taumahi scrapeSiteData ($ website_url) {

ki te (! Function_exists ('curl_init')) {

die ('CURL is not installed. ');

}

$ curl = curl_init

;

curl_setopt ($ curl, CURLOPT_URL, $ paetukutuku_url);

curl_setopt ($ curl, CURLOPT_RETURNTRANSFER, pono);

$ putanga = curl_exec ($ curl);

curl_close ($ curl);

hoki mai $ putanga;

}

I konei, ka taea te kite mehemea kua tika te whakanohohia o te PHP cURL, kaore ranei. E toru nga mahinga matua e whakamahia ana i roto i nga waahi mahi me te curl_init

ka awhina i te waahi tuatahi, curl_exec

ka mahi me te curl_close

ka awhina i te kati i te hononga. Kei te whakamahia nga taurangi pēnei i CURLOPT_URL hei tautuhi i nga URL o te paetukutuku e hiahiatia ana e waahi. Ko te CURLOPT_RETURNTRANSFER e rua ka awhina i nga whaarangi kua whakakorehia i roto i te ahua rererangi kaore i te ahua taunoa, ka whakaatu i te wharangi tukutuku katoa.

Hipanga3: Rauemi Raraunga Raraunga mai i te Paetukutuku:

Ko te wa tenei ki te hapai i nga mahi o to kōnae PHP me te wetewete i te waahanga motuhake o to papanga tukutuku. Mena kaore koe e hiahia ana i nga raraunga mai i tetahi URL motuhake, me whakatika koe ki te whakamahi i nga taurangi CURLOPT_RETURNTRANSFER me te whakanui i nga waahanga e hiahia ana koe ki te tango.

ki te (whakautu ($ _ POST ['tuku']) {

$ html = scrapeWebsiteData ($ _ POST ['paetukutuku_url']);

$ start_point = strup ($ html, 'Nga Karere Hou');

$ end_point = strup ($ html, '', $ start_point);

$ te roa = $ end_point- $ start_point;

$ html = substr ($ html, $ start_point, $ roa);

echo $ html;

}

Ka whakaarohia e koe ki te whakawhanake i te matauranga taketake o te PHP me nga Whakaaetanga Whaiaro i mua i te whakamahi i tetahi o enei waehere ka tuhia he rangitaki motuhake ranei he paetukutuku mo nga kaupapa whaiaro.

December 8, 2017