phpsolr擴展

發布時間: 2023-08-08 04:17:24

A. zookeeper集群為什麼是3個以上節點

Apache Zookeeper是我最近遇到的最酷的技術，我是在研究Solr Cloud功能的時候發現的。Solr的分布式計算讓我印象深刻。你只要開啟一個新的實例就能自動在Solr Cloud中找到。它會將自己分派到某個分片中，並確定出自己是一個Leader（源）還是一個副本。不一會兒，你就可以在你的那些伺服器上查詢到了。即便某些伺服器宕機了也可以繼續工作。非常動態、聰明、酷。

將運行多個應用程序作為一個邏輯程序並不是什麼新玩意。事實上，我在幾年前就已寫過類似的軟體。這種架構比較讓人迷惑，使用起來也費勁。為此Apache Zookeeper提供了一套工具用於管理這種軟體。

為什麼叫Zoo？「因為要協調的分布式系統是一個動物園」。

在本篇文章中，我將說明如何使用php安裝和集成Apache ZooKeeper。我們將通過service來協調各個獨立的PHP腳本，並讓它們同意某個成為Leader（所以稱作Leader選舉）。當Leader退出（或崩潰）時，worker可檢測到並再選出新的leader。

ZooKeeper是一個中性化的Service，用於管理配置信息、命名、提供分布式同步，還能組合Service。所有這些種類的Service都會在分布式應用程序中使用到。每次編寫這些Service都會涉及大量的修bug和競爭情況。正因為這種編寫這些Service有一定難度，所以通常都會忽視它們，這就使得在應用程序有變化時變得難以管理應用程序。即使處理得當，實現這些服務的不同方法也會使得部署應用程序變得難以管理。

雖然ZooKeeper是一個java應用程序，但C也可以使用。這里就有個PHP的擴展，由Andrei Zmievski在2009創建並維護。你可以從PECL中下載，或從GitHub中直接獲取PHP-ZooKeeper。
要使用該擴展你首先要安裝ZooKeeper。可以從官方網站下載。
$ tar zxfv zookeeper-3.4.5.tar.gz
$ cd zookeeper-3.4.5/src/c
$ ./configure --prefix=/usr/
$ make
$ sudo make install

這樣就會安裝ZooKeeper的庫和頭文件。現在准備編譯PHP擴展。

$ cd$ git clone https://github.com/andreiz/php-zookeeper.git
$ cd php-zookeeper
$ phpize
$ ./configure
$ make
$ sudo make install

將「zookeeper.so」添加到PHP配置中。

$ vim /etc/php5/cli/conf.d/20-zookeeper.ini

因為我不需要運行在web服務環境下，所以這里我只編輯了CLI的配置。將下面的行復制到ini文件中。

extension=zookeeper.so

使用如下命令來確定擴展是否已起作用。

$ php -m | grep zookeeper
zookeeper

現在是時候運行ZooKeeper了。目前唯一還沒有做的是配置。創建一個用於存放所有service數據的目錄。
$ mkdir /home/you-account/zoo
$ cd$ cd zookeeper-3.4.5/
$ cp conf/zoo_sample.cfg conf/zoo.cfg
$ vim conf/zoo.cfg

找到名為「dataDir」的屬性，將其指向「/home/you-account/zoo」目錄。

$ bin/zkServer.sh start
$ bin/zkCli.sh -server 127.0.0.1:2181[zk: 127.0.0.1:2181(CONNECTED) 14] create /test 1
Created /test[zk: 127.0.0.1:2181(CONNECTED) 19] ls /[test, zookeeper]

此時，你已成功連到了ZooKeeper，並創建了一個名為「/test」的znode（稍後我們會用到）。ZooKeeper以樹形結構保存數據。這很類似於文件系統，但「文件夾」（譯者註：這里指非最底層的節點）又和文件很像。znode是ZooKeeper保存的實體。Node（節點）的說法很容易被混淆，所以為了避免混淆這里使用了znode。

因為我們稍後還會使用，所以這里我們讓客戶端保持連接狀態。開啟一個新窗口，並創建一個zookeeperdemo1.php文件。

<?php
class ZookeeperDemo extends Zookeeper {

public function watcher( $i, $type, $key ) {
echo "Insider Watcher\n";

// Watcher gets consumed so we need to set a new one
$this->get( '/test', array($this, 'watcher' ) );
}
}
$zoo = new ZookeeperDemo('127.0.0.1:2181');$zoo->get( '/test', array($zoo, 'watcher' ) );
while( true ) {
echo '.';
sleep(2);}

現在運行該腳本。

$ php zookeeperdemo1.php

此處應該會每隔2秒產生一個點。現在切換到ZooKeeper客戶端，並更新「/test」值。

[zk: 127.0.0.1:2181(CONNECTED) 20] set /test foo

這樣就會靜默觸發PHP腳本中的「Insider Watcher」消息。怎麼會這樣的？

ZooKeeper提供了可以綁定在znode的監視器。如果監視器發現znode發生變化，該service會立即通知所有相關的客戶端。這就是PHP腳本如何知道變化的。Zookeeper::get方法的第二個參數是回調函數。當觸發事件時，監視器會被消費掉，所以我們需要在回調函數中再次設置監視器。

現在你可以准備創建分布式應用程序了。其中的挑戰是讓這些獨立的程序決定哪個（是leader）協調它們的工作，以及哪些（是worker）需要執行。這個處理過程叫做leader選舉，在ZooKeeper Recipes and Solutions你能看到相關的實現方法。

這里簡單來說就是，每個處理（或伺服器）緊盯著相鄰的那個處理（或伺服器）。如果一個已被監視的處理（也即Leader）退出或者崩潰了，監視程序就會查找其相鄰（此時最老）的那個處理作為Leader。

在真實的應用程序中，leader會給worker分配任務、監控進程和保存結果。這里為了簡化，我跳過了這些部分。
創建一個新的PHP文件，命名為worker.php。

<?php
class Worker extends Zookeeper {

const CONTAINER = '/cluster';

protected $acl = array(
array(
'perms' => Zookeeper::PERM_ALL,
'scheme' => 'world',
'id' => 'anyone' ) );
private $isLeader = false;

private $znode;

public function __construct( $host = '', $watcher_cb = null, $recv_timeout = 10000 ) {
parent::__construct( $host, $watcher_cb, $recv_timeout );
}

public function register() {
if( ! $this->exists( self::CONTAINER ) ) {
$this->create( self::CONTAINER, null, $this->acl );
}

$this->znode = $this->create( self::CONTAINER . '/w-',
null,
$this->acl,
Zookeeper::EPHEMERAL | Zookeeper::SEQUENCE );

$this->znode = str_replace( self::CONTAINER .'/', '', $this->znode );

printf( "I'm registred as: %s\n", $this->znode );

$watching = $this->watchPrevious();

if( $watching == $this->znode ) {
printf( "Nobody here, I'm the leader\n" );
$this->setLeader( true ); }
else {
printf( "I'm watching %s\n", $watching );
}
}

public function watchPrevious() {
$workers = $this->getChildren( self::CONTAINER );
sort( $workers );
$size = sizeof( $workers );
for( $i = 0 ; $i < $size ; $i++ ) {
if( $this->znode == $workers[ $i ] ) {
if( $i > 0 ) {
$this->get( self::CONTAINER . '/' . $workers[ $i - 1 ], array( $this, 'watchNode' ) );
return $workers[ $i - 1 ];
}

return $workers[ $i ];
}
}

throw new Exception( sprintf( "Something went very wrong! I can't find myself: %s/%s",
self::CONTAINER,
$this->znode ) );
}

public function watchNode( $i, $type, $name ) {
$watching = $this->watchPrevious();
if( $watching == $this->znode ) {
printf( "I'm the new leader!\n" );
$this->setLeader( true );
}
else {
printf( "Now I'm watching %s\n", $watching ); }
}

public function isLeader() {
return $this->isLeader;
}

public function setLeader($flag) {
$this->isLeader = $flag;
}

public function run() {
$this->register();

while( true ) {
if( $this->isLeader() ) {
$this->doLeaderJob();
}
else {
$this->doWorkerJob();
}

sleep( 2 );
}
}

public function doLeaderJob() {
echo "Leading\n";
}

public function doWorkerJob() {
echo "Working\n";
}
}
$worker = new Worker( '127.0.0.1:2181' );$worker->run();

打開至少3個終端，在每個終端中運行以下腳本：

# term1
$ php worker.php
I'm registred as: w-0000000001Nobody here, I'm the leader
Leading
# term2
$ php worker.php
I'm registred as: w-0000000002I'm watching w-0000000001
Working
# term3
$ php worker.php
I'm registred as: w-0000000003I'm watching w-0000000002
Working

現在模擬Leader崩潰的情形。使用Ctrl+c或其他方法退出第一個腳本。剛開始不會有任何變化，worker可以繼續工作。後來，ZooKeeper會發現超時，並選舉出新的leader。

雖然這些腳本很容易理解，但是還是有必要對已使用的Zookeeper標志作注釋。
$this->znode = $this->create( self::CONTAINER . '/w-', null, $this->acl, Zookeeper::EPHEMERAL | Zookeeper::SEQUENCE );

每個znode都是EPHEMERAL和SEQUENCE的。

EPHEMRAL代表當客戶端失去連接時移除該znode。這就是為何PHP腳本會知道超時。SEQUENCE代表在每個znode名稱後添加順序標識。我們通過這些唯一標識來標記worker。

在PHP部分還有些問題要注意。該擴展目前還是beta版，如果使用不當很容易發生segmentation fault。比如，不能傳入普通函數作為回調函數，傳入的必須為方法。我希望更多PHP社區的同仁可以看到Apache ZooKeeper的好，同時該擴展也會獲得更多的支持。

ZooKeeper是一個強大的軟體，擁有簡潔和簡單的API。由於文檔和示例都做的很好，任何人都可以很容易的編寫分布式軟體。讓我們開始吧，這會很有趣的。

B. 教你使用solr搭建你的全文檢索

Solr 是一個可供企業使用的基於 Lucene 的開箱即用的搜索伺服器對Lucene不熟？那麼建議先看看下面兩篇文檔

實戰Lucene 第部分初識 Lucene lo lucene /

用Lucene加速Web搜索應用程序的開發 lucene /

一 solr介紹

solr是基於Lucene Java搜索庫的企業級全文搜索引擎目前是apache的一個項目它的官方網址在 solr需要運行在一個servlet 容器里例如tomcat solr在lucene的上層提供了一個基於HTTP/XML的Web Services 我們的應用需要通過這個服務與兄斗祥solr進行交互

二 solr安裝和配置

關於solr的安裝和配置這里也有兩篇非常好的文檔作者同時也是 Lucene Java 項目的提交人和發言人

使用Apache Solr實現更加靈巧的搜索 solr /l

solr /l

下面主要說說需要注意的地方

Solr的安裝非常簡單下載solr的zip包後解壓縮將dist目錄下的war文件改名為solr war直接復制到tomcat 的webapps目錄即可注意一定要設置solr的主位置有三種方法我採用的是在tomcat里配置java p/env/solr/home的一個JNDI指向solr的主目錄（example目錄下）建立/tomcat /conf/Catalina/localhost/solr xml文件

觀察這銷燃個指定的solr主位置裡面存在兩個文件夾 conf和data 其中conf里存放了對solr而言最為重要的兩個配置文件schema xml和solrconfig xml data則用於存放索引文件

schema xml主要包括types fields和其他的一些預設設置

solrconfig xml用來配置Solr的一些系統屬性例如與索引和查詢處理有關的一些常見的配置選項以及緩存擴展等等

上面的文檔對這兩個文件羨搏有比較詳細的說明非常容易上手注意到schema xml里有一個

的配置這里將url欄位作為索引文檔的唯一標識符非常重要

三加入中文分詞

對全文檢索而言中文分詞非常的重要這里採用了qieqie庖丁分詞（非常不錯））集成非常的容易我下載的是 alpha 版本其中它支持最多切分和按最大切分創建自己的一個中文TokenizerFactory繼承自solr的BaseTokenizerFactory

/** * Created by IntelliJ IDEA * User: ronghao * Date: * Time: : : * 中文切詞對庖丁切詞的封裝 */ public class ChineseTokenizerFactory extends BaseTokenizerFactory { /** * 最多切分默認模式 */ public static final String MOST_WORDS_MODE = most words ; /** * 按最大切分 */ public static final String MAX_WORD_LENGTH_MODE = max word length ; private String mode = null; public void setMode(String mode) { if (mode==null||MOST_WORDS_MODE equalsIgnoreCase(mode) || default equalsIgnoreCase(mode)) { this mode=MOST_WORDS_MODE; } else if (MAX_WORD_LENGTH_MODE equalsIgnoreCase(mode)) { this mode=MAX_WORD_LENGTH_MODE; } else { throw new IllegalArgumentException( 不合法的分析器Mode 參數設置: + mode); } } @Override public void init(Map args) { super init(args); setMode(args get( mode )); } public TokenStream create(Reader input) { return new PaodingTokenizer(input PaodingMaker make() createTokenCollector()); } private TokenCollector createTokenCollector() { if( MOST_WORDS_MODE equals(mode)) return new MostWordsTokenCollector(); if( MAX_WORD_LENGTH_MODE equals(mode)) return new MaxWordLengthTokenCollector(); throw new Error( never happened ); } }

在schema xml的欄位text配置里加入該分詞器

< *** yzer type= index >

</ *** yzer>

< *** yzer type= query >

</ *** yzer>

</fieldtype>

完成後重啟tomcat 即可在

體驗到庖丁的中文分詞注意要將paoding *** ysis jar復制到solr的lib下注意修改jar包里字典的home

四與自己應用進行集成

Solr安裝完畢現在可以將自己的應用與solr集成其實過程非常的簡單應用增加數據——>根據配置的欄位構建add的xml文檔——>post至solr/update

應用刪除數據à根據配置的索引文檔唯一標識符構建delete的xml文檔——>post至solr/update

檢索數據à構建查詢xml—>get至/solr/select/——>對solr返回的xml進行處理——>頁面展現

具體的xml格式可以在solr網站找到另外就是solr支持高亮顯示非常方便

關於中文 solr內核支持UTF 編碼所以在tomcat里的server xml需要進行配置

另外向solr Post請求的時候需要轉為utf 編碼對solr 返回的查詢結果也需要進行一次utf 的轉碼檢索數據時對查詢的關鍵字也需要轉碼然後用 + 連接

String[] array = StringUtils split(query null ); for (String str : array) { result = result + URLEncoder encode(str UTF ) + + ; }

lishixin/Article/program/Java/hx/201311/25984

閱讀全文

熱點內容

好屋源碼發布：2025-03-20 19:24:02 瀏覽：74

安卓手機怎麼改手勢接聽發布：2025-03-20 19:23:47 瀏覽：993

手機wifi在哪個文件夾發布：2025-03-20 19:22:57 瀏覽：402

平板電腦怎麼緩存動漫發布：2025-03-20 19:20:10 瀏覽：40

永恆紀元有腳本嗎發布：2025-03-20 19:18:32 瀏覽：839

運演算法求發布：2025-03-20 19:17:47 瀏覽：208

咋看電腦的伺服器地址發布：2025-03-20 19:16:16 瀏覽：262

康拓2演算法發布：2025-03-20 19:11:49 瀏覽：597

跨平台編譯語言有哪些發布：2025-03-20 19:08:25 瀏覽：781

音樂appftp安卓發布：2025-03-20 19:03:24 瀏覽：306

phpsolr擴展

與phpsolr擴展相關的資訊