到站下车

2009年1月21日星期三

mysql--mysql limit查询优化(转)

MYSQL的优化是非常重要的。其他最常用也最需要优化的就是limit。mysql的limit给分页带来了极大的方便，但数据量一大的时候，limit的性能就急剧下降。

同样是取10条数据

select * from yanxue8_visit limit 10000,10 和
select * from yanxue8_visit limit 0,10
就不是一个数量级别的。

网上也很多关于limit的五条优化准则，都是翻译自mysql手册，虽然正确但不实用。今天发现一篇文章写了些关于limit优化的，很不错。

文中不是直接使用limit，而是首先获取到offset的id然后直接使用limit size来获取数据。根据他的数据，明显要好于直接使用limit。这里我具体使用数据分两种情况进行测试。（测试环境win2033+p4双核 (3GHZ) +4G内存 mysql 5.0.19）

1、offset比较小的时候。

select * from yanxue8_visit limit 10,10

多次运行，时间保持在0.0004-0.0005之间
Select * From yanxue8_visit Where vid ＞=(
Select vid From yanxue8_visit Order By vid limit 10,1
) limit 10

多次运行，时间保持在0.0005-0.0006之间，主要是0.0006
结论：偏移offset较小的时候，直接使用limit较优。这个显然是子查询的原因。

2、offset大的时候。
select * from yanxue8_visit limit 10000,10

多次运行，时间保持在0.0187左右
Select * From yanxue8_visit Where vid ＞=(
Select vid From yanxue8_visit Order By vid limit 10000,1
) limit 10

多次运行，时间保持在0.0061左右，只有前者的1/3。可以预计offset越大，后者越优。

以后要注意改正自己的limit语句，优化一下mysql了

2009年1月9日星期五

php---verify if a given string is encoded in valid utf-8

function phpdigVerifyUTF8($str) {
// verify if a given string is encoded in valid utf-8
if ($str === mb_convert_encoding(mb_convert_encoding($str, "UTF-32", "UTF-8"), "UTF-8", "UTF-32"))
{
return $str;
} else {
return false;
}
}

如何判断文本文件编码

根据不同编码的特点和标志,对一个文本文件判断编码方法如下
1 . UTF7 所有字节的内容不会大于127,也就是不大于&HFF
2 . UTF8 起始三个字节为"EF BB BF"
3 . UTF16BigEndian 起始三个字节为"FE FF"
4 . UTF16SmallEndian 起始三个字节为"FF FE"注: BigEndian 和SmallEndian 表示存储方式的高位在前或者低位在前,高位在前叫BigEndian 反之叫SmallEndian

2009年1月4日星期日

php----【转】PHP Unicode Utf-8 GB2312 Big5 相互转码解决办法

文章出处：http://hi.baidu.com/silyt/blog/item/a5a1672e183c8a554fc2261e.html

作者：silyt

这个转换需要以下7个文件，

big5-gb.tab

big5-unicode.tab

gb-big5.tab

gb-unicode.tab

unicode-big5.tab

unicode-gb.tab

language.inc.php

它们被打包成了gb_big5_unicode.zip，下载地址：http://www.ckichina.com/gb_big5_unicode.zip

编写 PHP 代码的过程中，经常会遇到需要对中文转码的问题，如 GB2312 <=> Unicode、GB2312 <=> Big5 等等。如果 PHP 编译时带有 mbstring 的话，可以使用 Multi-Byte String Function 实现部分转码工作。然而由于很多虚拟主机不支持 mbstring，或者 mbstring 的编译、配置过于麻烦，很多 PHP 代码无法使用这一序列的函数。

最近为了解决这个问题，找到一个不错的项目：PHP News Reader，这是一个基于 WEB 的新闻阅读器，支持基于 NNTP (RFC 977) 协议的新闻文章的阅读、发布、删除、回复等功能。这个项目实现了 GB2312 Big5 Unicode(UTF-8) 之间的相互转码，这个正是我所关心的部分。

使用 CVS 客户端（Linux 下直接用命令行就行，Windows 下推荐使用 Tortoise CVS）将项目的代码 Check Out 出来：

# cvs -d:pserver:anonymous@cvs.sourceforge.net:/cvsroot/pnews login
Logging in to :pserver:anonymous@cvs.sourceforge.net:2401/cvsroot/pnews
CVS password: (Press Enter)
# cvs -z3 -d:pserver:anonymous@cvs.sourceforge.net:/cvsroot/pnews co pnews
cvs server: Updating pnews
…

查看 pnews/language 目录，此目录下包含了如下文件：

big5-gb.tab
big5-unicode.tab
gb-big5.tab
gb-unicode.tab
unicode-big5.tab
unicode-gb.tab

这些都是用于字符转换的码表，然后再看看 pnews/language.inc.php 文件，其中包含了几个用于编码转换的函数：

// Big5 => GB
function b2g( $instr ) {
 $fp = fopen( 'language/big5-gb.tab', 'r' );
 $len = strlen($instr);
 for( $i = 0 ; $i < $len ; $i++ ) {
  $h = ord($instr[$i]);
  if( $h >= 160 ) {
   $l = ord($instr[$i+1]);
   if( $h == 161 && $l == 64 )
    $gb = '  ';
   else {
    fseek( $fp, (($h-160)*255+$l-1)*3 );
    $gb = fread( $fp, 2 );
   }
   $instr[$i] = $gb[0];
   $instr[$i+1] = $gb[1];
   $i++;
  }
 }
 fclose($fp);
 return $instr;
}
// GB => BIG5
function g2b( $instr ) {
 $fp = fopen( 'language/gb-big5.tab', 'r' );
 $len = strlen($instr);
 for( $i = 0 ; $i < $len ; $i++ ) {
  $h = ord($instr[$i]);
  if( $h > 160 && $h < 248 ) {
   $l = ord($instr[$i+1]);
   if( $l > 160 && $l < 255 ) {
    fseek( $fp, (($h-161)*94+$l-161)*3 );
    $bg = fread( $fp, 2 );
   }
   else
    $bg = '  ';
   $instr[$i] = $bg[0];
   $instr[$i+1] = $bg[1];
   $i++;
  }
 }
 fclose($fp);
 return $instr;
}
// Big5 => Unicode(UtF-8)
function b2u( $instr ) {
 $fp = fopen( 'language/big5-unicode.tab', 'r' );
 $len = strlen($instr);
 $outstr = '';
 for( $i = $x = 0 ; $i < $len ; $i++ ) {
  $h = ord($instr[$i]);
  if( $h >= 160 ) {
   $l = ord($instr[$i+1]);
   if( $h == 161 && $l == 64 )
    $uni = '  ';
   else {
    fseek( $fp, ($h-160)*510+($l-1)*2 );
    $uni = fread( $fp, 2 );
   }
   $codenum = ord($uni[0])*256 + ord($uni[1]);
   if( $codenum < 0x800 ) {
    $outstr[$x++] = chr( 192 + $codenum / 64 );
    $outstr[$x++] = chr( 128 + $codenum % 64 );
#    printf("[%02X%02X]<br>n", ord($outstr[$x-2]), ord($uni[$x-1]) );
   }
   else {
    $outstr[$x++] = chr( 224 + $codenum / 4096 );
    $codenum %= 4096;
    $outstr[$x++] = chr( 128 + $codenum / 64 );
    $outstr[$x++] = chr( 128 + ($codenum % 64) );
#    printf("[%02X%02X%02X]<br>n", ord($outstr[$x-3]), ord($outstr[$x-2]), ord($outstr[$x-1]) );
   }
   $i++;
  }
  else
   $outstr[$x++] = $instr[$i];
 }
 fclose($fp);
 if( $instr != '' )
  return join( '', $outstr);
}
// Unicode(UTF-8) => BIG5
function u2b( $instr ) {
 $fp = fopen( 'language/unicode-big5.tab', 'r' );
 $len = strlen($instr);
 $outstr = '';
 for( $i = $x = 0 ; $i < $len ; $i++ ) {
  $b1 = ord($instr[$i]);
  if( $b1 < 0x80 ) {
   $outstr[$x++] = chr($b1);
#   printf( "[%02X]", $b1);
  }
  elseif( $b1 >= 224 ) { # 3 bytes UTF-8
   $b1 -= 224;
   $b2 = ord($instr[$i+1]) - 128;
   $b3 = ord($instr[$i+2]) - 128;
   $i += 2;
   $uc = $b1 * 4096 + $b2 * 64 + $b3 ;
   fseek( $fp, $uc * 2 );
   $bg = fread( $fp, 2 );
   $outstr[$x++] = $bg[0];
   $outstr[$x++] = $bg[1];
#   printf( "[%02X%02X]", ord($bg[0]), ord($bg[1]));
  }
  elseif( $b1 >= 192 ) { # 2 bytes UTF-8
   printf( "[%02X%02X]", $b1, ord($instr[$i+1]) );
   $b1 -= 192;
   $b2 = ord($instr[$i]) - 128;
   $i++;
   $uc = $b1 * 64 + $b2 ;
   fseek( $fp, $uc * 2 );
   $bg = fread( $fp, 2 );
   $outstr[$x++] = $bg[0];
   $outstr[$x++] = $bg[1];
#   printf( "[%02X%02X]", ord($bg[0]), ord($bg[1]));
  }
 }
 fclose($fp);
 if( $instr != '' ) {
#  echo '##' . $instr . " becomes " . join( '', $outstr) . "<br>n";
  return join( '', $outstr);
 }
}
// GB => Unicode(UTF-8)
function g2u( $instr ) {
 $fp = fopen( 'language/gb-unicode.tab', 'r' );
 $len = strlen($instr);
 $outstr = '';
 for( $i = $x = 0 ; $i < $len ; $i++ ) {
  $h = ord($instr[$i]);
  if( $h > 160 ) {
   $l = ord($instr[$i+1]);
   fseek( $fp, ($h-161)*188+($l-161)*2 );
   $uni = fread( $fp, 2 );
   $codenum = ord($uni[0])*256 + ord($uni[1]);
   if( $codenum < 0x800 ) {
    $outstr[$x++] = chr( 192 + $codenum / 64 );
    $outstr[$x++] = chr( 128 + $codenum % 64 );
#    printf("[%02X%02X]<br>n", ord($outstr[$x-2]), ord($uni[$x-1]) );
   }
   else {
    $outstr[$x++] = chr( 224 + $codenum / 4096 );
    $codenum %= 4096;
    $outstr[$x++] = chr( 128 + $codenum / 64 );
    $outstr[$x++] = chr( 128 + ($codenum % 64) );
#    printf("[%02X%02X%02X]<br>n", ord($outstr[$x-3]), ord($outstr[$x-2]), ord($outstr[$x-1]) );
   }
   $i++;
  }
  else
   $outstr[$x++] = $instr[$i];
 }
 fclose($fp);
 if( $instr != '' )
  return join( '', $outstr);
}
// Unicode(UTF-8) => GB
function u2g( $instr ) {
 $fp = fopen( 'language/unicode-gb.tab', 'r' );
 $len = strlen($instr);
 $outstr = '';
 for( $i = $x = 0 ; $i < $len ; $i++ ) {
  $b1 = ord($instr[$i]);
  if( $b1 < 0x80 ) {
   $outstr[$x++] = chr($b1);
#   printf( "[%02X]", $b1);
  }
  elseif( $b1 >= 224 ) { # 3 bytes UTF-8
   $b1 -= 224;
   $b2 = ord($instr[$i+1]) - 128;
   $b3 = ord($instr[$i+2]) - 128;
   $i += 2;
   $uc = $b1 * 4096 + $b2 * 64 + $b3 ;
   fseek( $fp, $uc * 2 );
   $gb = fread( $fp, 2 );
   $outstr[$x++] = $gb[0];
   $outstr[$x++] = $gb[1];
#   printf( "[%02X%02X]", ord($gb[0]), ord($gb[1]));
  }
  elseif( $b1 >= 192 ) { # 2 bytes UTF-8
   printf( "[%02X%02X]", $b1, ord($instr[$i+1]) );
   $b1 -= 192;
   $b2 = ord($instr[$i]) - 128;
   $i++;
   $uc = $b1 * 64 + $b2 ;
   fseek( $fp, $uc * 2 );
   $gb = fread( $fp, 2 );
   $outstr[$x++] = $gb[0];
   $outstr[$x++] = $gb[1];
#   printf( "[%02X%02X]", ord($gb[0]), ord($gb[1]));
  }
 }
 fclose($fp);
 if( $instr != '' ) {
#  echo '##' . $instr . " becomes " . join( '', $outstr) . "<br>n";
  return join( '', $outstr);
 }
}

在自己的 PHP 文件中需要转码时，只需要 .tab 码表文件及相对应的转码函数，将函数中的 fopen 打开的文件路径修改为正确的路径即可。

PS：有时候，网页中出现的 Unicode 编码是十六进制的，比如 "庐山" 被编码成了 "%u5E90%u5C71"，而上面所提到的函数只能处理十进制的 Unicode 编码，所以，首先要从十六进制 Unicode 编码转换成十进制 Unicode 编码，下面的函数即实现了这种转换：

// Unicode Hex => Unicode Dec
function UnicodeHexToDec( $uhStr )
 {
        $gbStr = "";
        $uhArray = split( "%u", substr($uhStr, 2) );
        foreach( $uhArray as $udChar )
        {
         $udChar = hexdec( $udChar );
         $gbStr .= "&#".$udChar.";";
        }
        return $gbStr;
 }

2008年12月29日星期一

HTML DOM教程

http://61.139.52.111:8090/kj/Manfeel/w3pop/prop_iframe_src.asp.htm

HTML Iframe dom动态生成且隐藏边框

http://hi.baidu.com/cofaone/blog/item/c235347e20afd73b0cd7da3e.html

gbk与utf-8的转换

GBK 的编码范围(GB2312/GB18030)
\x00-\xff GBK双字节编码范围
\x20-\x7f ASCII
\xa1-\xff 中文
\x80-\xff 中文

UTF-8 的编码范围(Unicode)
\u4e00-\u9fa5 (中文)
\x3130-\x318F (韩文
\xAC00-\xD7A3 (韩文)
\u0800-\u4e00 (日文)
ps: 韩文是大于[\u9fa5]的字符

现在我们来看一些PHP处理gbk和utf-8的代码例子

正则例子:
preg_replace("/([\x80-\xff])/","",$str);
preg_replace("/([u4e00-u9fa5])/","",$str);

判断内容里有没有中文-GBK (PHP)
function check_is_chinese($s){
return preg_match('/[\x80-\xff]./', $s);
}

获取字符串长度-GBK (PHP)
function gb_strlen($str){
$count = 0;
for($i=0; $i $s = substr($str, $i, 1);
if (preg_match("/[\x80-\xff]/", $s)) ++$i;
++$count;
}
return $count;
}

统计字符串长度-UTF8 (PHP)
function utf8_strlen($str) {
$count = 0;
for($i = 0; $i < strlen($str); $i++){
$value = ord($str[$i]);
if($value > 127) {
$count++;
if($value >= 192 && $value <= 223) $i++;
elseif($value >= 224 && $value <= 239) $i = $i + 2;
elseif($value >= 240 && $value <= 247) $i = $i + 3;
else die('Not a UTF-8 compatible string');
}
$count++;
}
return $count;
}

截取字符串字串-GBK (PHP)
function gb_substr($str, $len){
$count = 0;
for($i=0; $i if($count == $len) break;
if(preg_match("/[\x80-\xff]/", substr($str, $i, 1))) ++$i;
++$count;
}
return substr($str, 0, $i);
}

截取字符串-UTF8(PHP)
function utf8_substr($str,$position,$length){
$start_position = strlen($str);
$start_byte = 0;
$end_position = strlen($str);
$count = 0;
for($i = 0; $i < strlen($str); $i++){
if($count >= $position && $start_position > $i){
$start_position = $i;
$start_byte = $count;
}
if(($count-$start_byte)>=$length) {
$end_position = $i;
break;
}
$value = ord($str[$i]);
if($value > 127){
$count++;
if($value >= 192 && $value <= 223) $i++;
elseif($value >= 224 && $value <= 239) $i = $i + 2;
elseif($value >= 240 && $value <= 247) $i = $i + 3;
else die('Not a UTF-8 compatible string');
}
$count++;

}
return(substr($str,$start_position,$end_position-$start_position));
}