功能:本41语言10文件格式搜索引擎可搜索互联网(WWW)或企业网(Intranet),并建立全文索引,为终端用户提供关键词及短语的全文搜索服务。注:全世界仅Google, Yahoo两家拥有搜索多语言多文件格式的高端产品。本产品有2个版本:互联网版和企业网版。互联网版用于某一国家的所有互联网网页的搜索。企业网版用于搜索一个或一组网址,亦可用于1.垂直行业搜索(例如IT业)2.地区搜索(例如北京市)3.新闻搜索(例如1000个新闻网站)。
特点:
1、多语言。目前支持41种语言(中简,中繁,英,法,俄,德,西班牙,意大利,希腊,阿拉伯,日,韩,泰,等),覆盖欧美大洋洲全部及亚洲大部。其他中文搜索引擎只支持中文简体一种语言,且将英文当中文简体处理。
2、多文件格式。目前支持10种文件格式,即:HTML格式,Word格式,Excel格式,PowerPoint格式,RTF格式,PDF格式, PostScript格式,Write格式,XML格式,各种文本格式。而现有中文搜索引擎只支持HTML一种格式。
3、多编码。支持142种编码(GB2312, GBK, GB18030, Big5, ISO8859-x, Shift-JIS, EUC-JP, EUC-KR等)。其他中文搜索引擎只支持GB2312一种编码。4、更新速度快。本搜索引擎每日可抓取并同时索引4百万个网页。每月可抓取并索引1.2亿网页。据估计中国现有中文网页约1亿,故每月可对全中国的互联网进行一次完全更新。其他中文搜索引擎每日只能抓取约20万个网页,每个月进行部分更新(更新约6百万个网页)。
主要技术指标:
41语言:中英法德俄西意希阿日韩泰…
10文件格式:HTML Word Excel PowerPoint RTF PDF PostScript Write XML text
跨平台运行:纯Java软件,只需Java虚拟机
检索速度:0.001秒~1秒
收集网页量:~21亿
更新周期:1.2亿网页完全更新/月(10KB/网页)
收集网页速度:4百万个网页/日(10KB/网页)
建索引速度:>4百万个网页/日可选择特定语言检索例:中文繁体
可选择特定格式检索:例: Word文件
可选择特定网址检索:例: site:www.google.com
用途:需要多语言检索能力的信息系统。例如:奥运会,世界博览会,亚运会,APEC等。政府外交部门网站。政府/军队情报部门。需要多语言检索的跨国公司网站。情报检索/服务行业(情报所,图书馆)。外国语学校。全国通用检索。
产业化及市场前景:随着中国网民数量持续增加,中文搜索引擎市场也快速发展,预计04年容量(互联网广告,收费检索)会达到8亿人民币,2006年增至17亿人民币。
投入情况:互联网版硬件投资RMBY500~1000万。企业网版硬件投资RMBY1~2万。收益情况:运营互联网版,向全国各门户网站提供检索服务,按检索次数收费。定价:0.002~0.01元/次,按每天提供1000万次检索服务,年收入730~3650万人民币。亦可收费发布互联网广告,价格待定。
|