コンテンツのスクレイピング(別名ウェブスクレーピング、ウェブハーベスティング、ウェブデータマイニングなど。)は、Webサイトからデータをコピーするための手順です。 「スクレーパー」(ワイパー)コンテンツは、データをコピーする人またはソフトウェアです。 Webスクレイピングは悪いことではありません。

実際、すべてのWebブラウザーは基本的にコンテンツスクレーパーです。 たとえば、検索エンジンのWebインデックス作成など、コンテンツのスクレイピングを行うための正当な目的はたくさんあります。

上の私たちの記事を参照してください GoogleによるWordPressブログのインデックス作成を停止する方法

本当の懸念はあなたのウェブサイト上のコンテンツのスクレイパーが有害かどうかです。 競合他社はあなたのコンテンツを盗もうとするかもしれません それに所属するものとして公開します。 正当なユーザーと悪意のあるユーザーを区別できる場合は、自分を保護する可能性が高くなります。 この記事では、Webスクレイピングの基本と、それを取り除くためのいくつかの方法について説明します(または少なくともそれらの重要性を減らす).

しかし、前に、WordPressをインストールしたことがない場合は、 インストール方法 WordPressのブログ 7つのステップで et あなたのブログにワードプレスのテーマを、見つけインストールしてアクティブにする方法 

それから私たちがここにいる理由に戻りましょう。

コンテンツスクレーパーの種類

コンテンツスクレーパーがデータをダウンロードするには、さまざまな方法があります。 さまざまな方法とそれらが使用するテクノロジーを知ることが重要です。 方法は低技術(コンテンツを手動でコピーして貼り付ける人)洗練されたロボット(ブラウザで人間の活動をシミュレートできる自動化されたソフトウェア)。 ここにあなたがしなければならないかもしれないことの要約があります:

  • Spiders:Webクロールは、コンテンツスクレーパーの動作の大きな部分を占めています。 のようなクモ Googlebotが 最初にXNUMXつのWebページを選択し、リンクからリンクに移動してWebページをダウンロードします。
  • シェルスクリプト:Linux Shellを使用して、GNUWgetなどのスクリプトでコンテンツスクレーパーを作成してコンテンツをダウンロードできます。
  • HTMLスクレーパー:シェルスクリプトに似ています。 このタイプのスクレーパーは非常に一般的です。 これは、WebサイトのHTML構造を取得してデータを見つけることによって機能します。
  • ビューの画面: スクリーンワイパーは、コンピューターを使用してインターネットを閲覧する人間のユーザーの動作を模倣することにより、Webサイトからデータをキャプチャするプログラムです。
  • 人間のコピー:これは、人がWebサイトからコンテンツを手動でコピーする場所です。 オンラインで投稿したことがあるなら、疫病が蔓延していることに気づいたかもしれません。 最初のお世辞がなくなった後、誰かがあなたの仕事から利益を得ているという現実が適合します。

同じことをするいくつかの方法があります。 上記のスクレーパーのカテゴリーは、完全なリストではありません。 さらに、カテゴリ間には多くの重複があります。

私達の記事も読んで どのように、なぜあなたのコンテンツの質的監査

ブログを保護する方法

コンテンツスクレーパーからブログを保護する

1.レート制限とブロッキング

最初に問題を検出することで、多くのボットと戦うことができます。 自動化されたロボットがするのは一般的です サーバーにスパムを送る 非常に多くのリクエストがあります。 レートスロットリングは、その名前が示すように、ルールを設定することにより、個々のクライアントからのサーバー要求を制限します。

リクエスト間のミリ秒を測定するなどのことができます。 ウェブサイトとのやり取りが速すぎる場合は、それがボットであることがわかります。 その後 このIPアドレスをブロックする。 原産国を含むいくつかの基準に基づいてIPアドレスをブロックできます。

2.登録と接続

登録とログイン コンテンツを詮索好きな目から遠ざけるための一般的な方法です。 ロボットの進行を妨げる可能性があります。 あなたがする必要があるのは、接続を条件としてあなたのコンテンツへのアクセスを作ることです。 ログインセキュリティの基本はここに適用されます。 登録とログインが必要なページは、検索エンジンによってインデックスに登録されないことに注意してください。

3.ハニーポットと偽データ

コンピュータサイエンスでは、「ハニーポット」は仮想の刺し傷操作です。 ハニーポットでトラップを設定して潜在的な攻撃者を切り上げ、コンテンツスクレーパーからのトラフィックを検出します。 これを行う方法は無数にあります。

たとえば、Webページに非表示のリンクを追加できます。 次に、リンクをクリックしたクライアントのIPアドレスをブロックするアルゴリズムを作成します。 より洗練されたハニーポットは、セットアップと保守が難しい場合があります。 幸いなことに、オープンソースのHoneypotプロジェクトがたくさんあります。 この素晴らしいをチェックしてください githubの素晴らしいハニーポットのリスト.

4. CAPTCHAを使用する

キャプチャは「 別にコンピュータと人間を伝えるために完全に自動化された公開チューリングテスト 基本的に、人間とロボットの違いを見分けるテストです。 キャプチャは退屈かもしれませんが、便利でもあります。 を使用して、ボットがターゲットにする可能性があると思われる領域をブロックできます。 お問い合わせフォーム. WordPress には、「 キャプチャ Jetpackから。

プレミアムWordPressプラグインもご覧ください  

他にも使えます WordPressのプラグイン モダンな外観を与え、ブログやウェブサイトの取り扱いを最適化します。

ここでは、そのためのプレミアムWordPressプラグインを提供しています。

1。 Arformsのストライプ

ARFormsには、Stripe支払いゲートウェイを介した支払いを受け入れる新しい拡張機能があります。 それは「ARFormsStripe」と呼ばれています。 後者は、フォームの入力と支払いをXNUMXつのプロセスに統合します。

arformsのストライプ

あなたができる 顧客に請求する ARFormsフォームの送信後すぐに動的な量で。

私達の記事も読んで WooCommerceと簡単にデジタルダウンロードにストライプを使用する方法

ARFormsでフォームを作成し、Stripeで設定するだけですべて完了です! Stripeによる支払いをすぐに設定できます。

ダウンロード | デモ | ウェブホスティング

2. AXソーシャルストリーム

あなたが希望する場合 Webサイトに複数のソーシャルメディアフィードを表示する、次にプラグイン WordPressソーシャルボード アカウントアクティビティを表示する17つの方法を提供することで、これを行うことができます。 また、XNUMXのソーシャルネットワークといくつかのカスタマイズ可能なレイアウトのサポートも利用できます。

Axeソーシャルストリームワードプレスプラグイン

その機能は、とりわけ次のとおりです。6つの異なるフィード表示モード、大多数のソーシャルネットワークのサポート、完全に応答性の高いレイアウト、 広告バナーのサポート, 多言語サポート、テーママネージャー、詳細なドキュメントなど..。

ダウンロード | デモ | ウェブホスティング

3。 インタラクティブな世界地図

インタラクティブワールドマップは、インタラクティブな色付きのマーカーを使用して、必要な数のジオロケーションマップ、大陸、国、または地域を作成するのに役立ちます。

インタラクティブな世界地図

最新バージョンのWordPressと互換性があり、 VisualComposerプラグイン.

私たちを発見 あなたのウェブサイトの外観をカスタマイズする8 WordPressのプラグイン

Interactive World Mapsのおかげで、全世界の地図、大陸または亜大陸、国など、さまざまなタイプの地域を表示できます。

ダウンロード デモ | ウェブホスティング

その他の推奨リソース

また、以下のリソースを参照して、Webサイトとブログの把握と管理をさらに進めてください。

まとめ

そこ! このチュートリアルはこれですべてです。効果的に保護するための実用的な To Do リストを作成するのに役立つことを願っています。 WordPressのブログお気軽に ソーシャルネットワークで友達とヒントを共有する.

しかし、あなたも私たちに相談することができます ressources、インターネットサイトの作成プロジェクトを実行するためにより多くの要素が必要な場合は、 WordPressブログの作成。

しかし、それまでの間、あなたについて教えてください commentaires 専用セクションの提案。

...