Month: December 2010

Google Wonder Wheel Extractor

Posted on

Beberapa hari yang lalu kita udah belajar, bagaimana sih cara melakukan basic scraping terhadap sebuah website, nah kali ini gue mau kasih contoh tentang advanced scraping yang spesifik untuk melakukan suatu task, yaitu untuk ngambil hasil related keywords dan terms dari google wonder wheel.

Pengen bermain – main dengan google wonder wheel untuk dapetin related keywords dari keyword2 yang lagi lo pengen kejar untuk dapetin traffic nya? Nah sekarang gue ada tools nya nih namanya sphinxWonder. SphinxWonder adalah tools yang gue buat untuk scraping google wonder wheel yang bisa lo tentuin sendiri keyword nya.

cek link tkp: google wonder wheel scraper

Cara Pemakaian tools nya:

  1. Copy paste key dan pisang.php yg sudah disediakan di sana ke input text box yg udah disediakan.
  2. Masukin keyword yang di inginkan (tidak semua keyword mempunyai hasil loh)
  3. pilih level 1 atau 2, lalu “Hajar Bleh!!”
  4. Tools tersebut gue sediakan gratis buat lo semua, tapi kalo mau pake terus2an untuk sering2 query, tolong install pisang.php di server hosting anda dan set key nya terserah anda, dan pergunakan pisang.php dan key anda masing2 untuk dipake di tools2 yg udah gue bikin. Guna nya dari pisang.php adalah sebagai proxy untuk semua tools yg gue bikin ketika dia perlu melakukan koneksi ke web yang ingin di scrap.

Google Wonder Wheel, Apaan Sih?

google wonder wheel
google wonder wheel

 

 

Sebuah tools dari google yang membantu untuk mencari related keywords yang berhubungan dengan master keyword yang sedang di search. Biasanya sangat berguna banget kalo lo punya blog yg ngebahas nya hanya 1 topic yg spesifik, karena di suatu titik pasti lo akan ribet and bingung banget nyari ‘topic apa ya yang dibahas lagi?’ hihihihi ūüėÄ

Nah, tools yang gue buat itu adalah Google Wonder Wheel Scraper, up to level 2 crawling, yang ngebantu untuk lo copas hasil dari google wonder wheel tersebut.

Advertisements

Advanced Search di ArsipBerita.com

Posted on

Iseng2 lagi ngga ada kerjaan, ya udah deh gue bikin fitur advanced search di untuk web Arsip Berita.

arsipberita.com advanced search
arsipberita.com advanced search

– Simple Search

keyword: kunjungan presiden sby ke surabaya
maka berita yang akan dicari mengandung kata2 kunjungan presiden sby ke surabaya dari judul dan konten berita.

 

– Title Search

keyword: @title timnas indonesia
maka berita yang akan dicari mengandung kata2 timnas indonesia dari judul berita.

 

– Content Search

keyword: @body dewi persik
maka berita yang akan dicari mengandung kata2 dewi persik dari konten berita.

 

– Exact Term Search

keyword: “timnas indonesia”
maka berita yang akan dicari mengandung dari kata yang benar – benar diawali dan diakhir dari tanda petik “timnas berita” dari judul dan konten berita.

 

– Negative Search

keyword: harga minyak -perusahaan
maka berita yang akan dicari mengandung kata2 harga minyak tetapi tidak mengandung kata perusahaan dari judul dan konten berita.
anda juga bisa menambahkan @title atau @body disini dan juga exact term search, contoh: @title “minyak” @body “harga minyak” -perusahaan

Gimana Sih Cara Aman Jualan Link Supaya Ngga Di Benci Google?

Posted on Updated on

Kalau Mau Jualan Paid Links, Pakai Cara Yang Aman Dong!
Jangan Bunuh Diri Karena di De-Index Yahh!??

Banyak orang mengeluh seperti, “kok blog gue PageRank nya turun sih?”, “kok website gue di de-index sama google sih?” tapi bingung ngga tau kenapa alesan nya. apakah blog atau website lo juga pernah mengalami nasib seperti itu?

Nah mungkin salah satu alesan nya adalah gara2 di dalem blog atau website lo ada text link yang di jual ke orang lain berupa paid link. Jangan cuman gara2 duit cuman berapa dollar doang yg lo bakal dapetin dari jualan textl ink terus bisa menyebabkan website lo diturunin Google PageRank nya atau malah sampai di de-index atau di blacklist / banned dari berbagai macam search engine seperti google, yahoo, bing, dll.

Kalau emang lo pernah merasa jualan text link, ya mungkin aja karena itu alesan nya website lo tiba2 menghilang gak jelas dari search engine. nah, untuk mencegah hal2 seperti itu, ketika lo mau jualan text link, coba deh ikutin 2 saran dibawah ini.

– Menggunakan attribute rel=”nofollow” di anchor text html.

<a href="https://moshimon.wordpress.com/" rel="nofollow">Moshimon</a>

– bikin url forwarder di dalam website lo khusus untuk paid links yang sudah di set supaya tidak di crawl oleh search engine di dalam settingan robots.txt nya.

contoh robots.txt nya:

User-agent: *
Disallow: /folder/scriptredirect.php?paidlink_id=1

nah kalau misalnya udah dibikin rule seperti itu, script url forwarder yang di letakin di http://%5Bdomainlo.com%5D/folder/scriptredirect.php ga bakalan difollow sama bot2 search engine seperti google-bot, yahoo sluprs, dll. Alhasil, jadinya website lo Insya Allah bakalan aman tentram deh biar pun jualan text link (asal ya kira2 lah yg normal2 aja jualan nya, jangan sampe 1 page isi nya cuman link semua.. wkwkwkkw).

Google dan search engine lain menggunakan backlink terhadap sebuah situs untuk menentukan reputasi. Salah satu faktor ranking dalam hasil pencarian Google sebagian dihitung berdasarkan analisis backline terhadap situs tersebut dari situs lain. Link analisis merupakan cara yang sangat berguna untuk mengukur nilai sebuah situs, dan cara ini dipercaya telah meningkatkan kualitas pencarian hasil search di web.

Analisis  backlink dihitung dari kuantitas jumlah link tetapi lebih dititik beratkan dari kualitas sebuah link tersebut.

Hah!? maksudnya apa sih?

Maksud gue, 10 backlink dari website pr5 dan 6 jauh lebih bagus dari pada 100 backlink pr 1 dan 2.

— kok gue bisa ngomong kyk gini? nah bisa dilihat disini refrensi langsung dari google.

Basic Website Scraping dengan PHP dan cURL

Posted on Updated on

Di dalam post ini gue mo kasih contoh bagaimana cara paling sederhana untuk men-scrape sebuah website.

save ke dalam file SimpleGrep.class.php

<?php/*
* SimpleGrep.class.php
* by mrlemonade <https://moshimon.wordpress.com/>
*
*/
class SimpleGrep {
  function __construct($url, $ref = '') {
  $ch = curl_init();
  curl_setopt($ch, CURLOPT_URL, $url);
  curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);
  curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)");
  curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
  curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 20);
  curl_setopt($ch, CURLOPT_TIMEOUT, 30);
  if(!empty($ref))
    curl_setopt($ch, CURLOPT_REFERER, $ref);
    $this->res = curl_exec($ch);
    curl_close($ch);
  }
  function hasil() {
    if(!empty($this->res))
    return $this->res;
  }
}
?>

contoh cara pake classnya, save ke file grep.php

<?php
include 'SimpleGrep.class.php';
$url = 'http://www.detik.com/';
$ref = 'http://www.google.com/';
$sg = new SimpleGrep($url, $ref);
echo $sg->hasil();

lalu tinggal jalanin di console ssh aja: php grep.php atau
di jalanin di web browser.

echo $sg->hasil();
akan menampilkan hasil website yang kita scrape tadi di dalam
$url yang sudah kita spesifikasikan ūüôā
$ref yang di set tadi adalah http referer,
jadi si admin detik nanti liatnya kita masuk web dia dari google.com.

Tips Bagi Yang Suka Main AutoBlog Atau AGC Dengan WordPress

Posted on

Post ini adalah selentingan dari diskusi yang sedang berlangsung di salah satu thread gue di forum adsense-id yang kebetulan berisi saran buat optimisasi wordpress bagi yang suka main agc atau autoblog. Nah, karena sepertinya bagus untuk di share, jadi gue sharing aja deh disini.

Jadi intinya, bagi yang suka maen2 gituan, gue saranin elo harus wajib punya 3 plugin ini untuk optimisasi wordpress elo.

  1. Wp-Super-Cache
  2. Wp-Minify
  3. Db-Cache-Reloaded

Kenapa gue ngga rekomendasikan w3 total cache?

Ketika elo punya blog yang banyak agc atau autopost nya, db caching di wordpress ngga akan begitu pengaruh. Soalnya kan akan banyak post yang dimasukin sama wordpress nya ke database dan bakal sering add post terus. Karena wordpress basic query sql nya pake LIMIT m,n bukan LIMIT m, jadi setiap ada post baru yang biasanya ada tiap beberapa menit sekali db cache nya akan hangus dan harus scan the whole table wp_posts lagi untuk dapetin cache baru. makanya khusus untuk arsipberita gue lebih milih wp-super-cache yang provide html static file dari pada w3 total cache.

karena salah satu alasan ini, untuk yang bermain autoblog atau agc, menurut gw lebih baik pake wp-supercache + db-cache-reloaded + wp-minify dari pada pake w3-total-cache ūüôā