[COCOON+Jfor]将FO转换为RTF格式文档
继续阅读之前,我们假设您熟悉以下知识,也可以参考本文后面的附录:
n Cocoon(Apache组织的XML项目中的八个子项目之一)
n XSL Formatting Objects (XSL-FO)
n FOP(Formatting Objects Processor)
n Jfor(Open-Source Java XSL-FO to RTF converter)
关键词:
cocoon、jfor、xml、xsl-fo
摘要:
对于如何把PDF格式文档转换为Word文档,我们的思路是,能不能这样:PDFàFOàRTF。
首先,我们来看看如何将FO转换为RTF格式。我们可以让Cocoon+Jfor做到这一点。
我们已经知道利用WH2FO和FOP可以把Word2000文档成功转换为PDF格式文档。
第一步,将Word转换为XSL-FO,具体的OpenSource可以在http://www-uk.hpl.hp.com/people/fabgia/wh2fo/wh2fo.html找到。
第二步,按照http://www-900.ibm.com/developerWorks/cn/xml/x-xslfo2app/index.shtml
的指导,将XSL-Fo转换为PDF。
简单的命令例子:
> java org.apache.fop.apps.Fop everything.fo everything.pdf
或者安装了FOP(http://apache.linuxforum.net/dist/xml/fop/)之后,运行:
fop.cmd sample.fo sample.pdf
即可输出PDF文件。
那么现在,我们如何反过来做呢?把PDF文件转换为Word文件。
Microsoft KB上都声称并没有提供直接的方法,他们的建议是,你用Acrobat Reader 5.0打开PDF文件,用Copy Text或者Copy Image命令把所需要的内容粘贴到Word里。还有人声称可以用Acrobat Reader 5.0另存为RTF格式。
HOW TO: Convert Adobe Acrobat Reader (*.pdf) Files in Word 2002 (290927) - This article explains how to convert a Portable Document Format (PDF) document from Adobe Acrobat Reader to Microsoft Word. |
我们的思路是,能不能这样:PDFàFOàRTF。
首先,我们来看看如何将FO转换为RTF格式。我们可以让Cocoon+Jfor做到这一点:
安装Cocoon:
安装Cocoon相对来说非常简单。分成这么几个步骤:
第一步,安装JDK:
确保你的JDK版本足够高,我的是j2sdk1.4.2_02;之后设置JAVA_HOME为JDK目录,或者运行命令:
Set java_home = F:\j2sdk1.4.2_02 |
第二步,安装cocoon:
下载cocoon 2.1.3:
The latest source distribution (Cocoon 2.1.3): · TAR/GZIP format (Unix platforms): cocoon-latest-src.tar.gz · ZIP format (Windows platforms): cocoon-latest-src.zip |
解压之后,运行cocoon-2.1.3根目录下的build.bat,来编译cocoon:
E:\cocoon-2.1.3>build Using Java from F:\j2sdk1.4.2_02\ Buildfile: build.xml prepare: +-----------------------------------------------------------+ Apache Cocoon 2.1.3 [1999-2003] +-----------------------------------------------------------+ Building with Apache Ant version 1.5.4 compiled on August 12 2003 … … validate-jars: Copying 1 file to E:\cocoon-2.1.3\build\cocoon-2.1.3\temp validate-config: Validating configuration files Validating cocoon.xconf using a very basic RELAX NG grammar ... BUILD SUCCESSFUL Total time: 2 minutes 30 seconds |
编译成功之后,我们可以试试看cocoon的效果。
第三步,启动cocoon:
本质上,cocoon还是一个servlet。请运行cocoon-2.1.3根目录下的cocoon.bat,来启动cocoon:
E:\cocoon-2.1.3>cocoon servlet cocoon.bat: using .\build\webapp as the webapp directory |
于是乎,就出现了cocoon的运行窗口:
让我们试试看效果:打开IE,输入
http://localhost:8888
即可看到:
Okay,一切正常。
现在,我们要来试试FOàRTF的转换了。前提是,必须把Jfor的包放入cocoon下。
第四步,安装Jfor到Cocoon:
从Jfor的官方站点
http://www.jfor.org/
下载Jfor二进制包。地址是:
http://prdownloads.sourceforge.net/jfor/jfor-0.7.2rc1.jar?download
下载了jfor-0.7.2rc1.jar,把它放在
cocoon-2.1.3\lib\optional
子文件夹下。
然后重新build一遍cocoon,步骤同第二步。
再次启动cocoon servlet。
第五步,一个XMLàRTF的例子:
在
cocoon-2.1.3\build\webapp\
目录下新建一个文件夹,例如名字就叫“RtfDemo”。
建立这么几个文件:
sitemap.xmap
<?xml version="1.0"?> <!-- CVS $Id: sitemap.xmap,v 1.12 2003/07/29 03:15:47 vgritsenko Exp $ --> <map:sitemap xmlns:map="http://apache.org/cocoon/sitemap/1.0"> <!-- ================== Views ========================= --> <map:views> <map:view name="content" from-label="content"> <map:serialize type="xml"/> </map:view> <map:view from-label="content" name="pretty-content"> <map:transform src="context://stylesheets/system/xml2html.xslt"/> <map:serialize type="html"/> </map:view> <map:view name="links" from-position="last"> <map:serialize type="links"/> </map:view> </map:views> <!-- ================ Pipelines ====================== --> <map:pipelines> <map:pipeline> <!-- ================ MyFO2RTF =================== --> <map:match pattern="hello.rtf"> <map:generate src="fo/hello.xml"/> <map:transform src="fo/page2fo.xsl"/> <map:serialize type="fo2rtf"/> </map:match> <!-- ================ MyFO2RTF =================== --> </map:pipeline> </map:pipelines> </map:sitemap> |
sitemap.xmap是一个当前站点的配置,非常重要。“map:match”节点指明了如何转换。
新建一个子文件夹Fo,其中放置这么两个文件:
hello.xml
<?xml version="1.0" encoding="gb2312"?> <!-- CVS $Id: hello.xml,v 1.3 2003/05/07 04:57:13 vgritsenko Exp $ --> <page> <title>BPA!</title> <content> <para>美国当地时间11月12日,微软发布了SQL Server 2000的开发支援工具“Best Practices Analyzer(BPA)”。 BPA是一种旨在构筑便于管理的SQL Server应用的工具。不仅可以防止导入SQL Server时遗忘设定等,而且还可以用于数据库的管理。微软从当天起通过该公司的Web站点开始提供该工具的β版。 !</para> </content> </page> |
和
page2fo.xsl
<?xml version="1.0"?> <!-- CVS $Id: page2fo.xsl,v 1.2 2003/05/07 04:57:13 vgritsenko Exp $ --> <xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform" xmlns:fo="http://www.w3.org/1999/XSL/Format"> <xsl:template match="/"> <fo:root xmlns:fo="http://www.w3.org/1999/XSL/Format"> <fo:layout-master-set> <fo:simple-page-master master-name="page" page-height="29.7cm" page-width="21cm" margin-top="1cm" margin-bottom="2cm" margin-left="2.5cm" margin-right="2.5cm"> <fo:region-before extent="3cm"/> <fo:region-body margin-top="3cm"/> <fo:region-after extent="1.5cm"/> </fo:simple-page-master> <fo:page-sequence-master master-name="all"> <fo:repeatable-page-master-alternatives> <fo:conditional-page-master-reference master-reference="page" page-position="first"/> </fo:repeatable-page-master-alternatives> </fo:page-sequence-master> </fo:layout-master-set> <fo:page-sequence master-reference="all"> <fo:static-content flow-name="xsl-region-after"> <fo:block text-align="center" font-size="10pt" font-family="serif" line-height="14pt">page <fo:page-number/></fo:block> </fo:static-content> <fo:flow flow-name="xsl-region-body"> <xsl:apply-templates/> </fo:flow> </fo:page-sequence> </fo:root> </xsl:template> <xsl:template match="title"> <fo:block font-size="36pt" space-before.optimum="24pt" text-align="center"><xsl:apply-templates/></fo:block> </xsl:template> <xsl:template match="para"> <fo:block font-size="12pt" space-before.optimum="12pt" text-align="center"><xsl:apply-templates/></fo:block> </xsl:template> </xsl:stylesheet> |
好了,一切准备就绪。
浏览
http://localhost:8888/rtfdemo/hello.rtf
就可以看到RTF版本的输出了,你可以另存为hello.rtf:
同时,cocoon的窗口也输出了这个过程:
12:39:40.852 EVENT Started SocketListener on 0.0.0.0:8888 12:39:40.852 EVENT Started org.mortbay.jetty.Server@1037c71 jfor.INFO:jfor V0.7.1 - setting up conversion... jfor.INFO:Parsing xsl:fo document... jfor.INFO:Writing out RTF... jfor.INFO:Done converting xsl:fo to RTF. jfor.DEBUG:conversion took 80 milliseconds. jfor.INFO:jfor V0.7.1 - setting up conversion... jfor.INFO:Parsing xsl:fo document... |
好了,用Cocoon+Jfor这么简单就实现了XMLàRTF。不过,这还是万里长征第一步。
待续。
缩略语清单:
Cocoon:
Cocoon是Apache组织的XML项目中的八个子项目之一,根据Apache官方定义,Cocoon是一项XML发布框架。它允许你定义XML文档和文档的转换,并最终生成你所选择的表 示形式,例如HTML, PDF, SVG, VRML等等。另外,Cocoon使你能够在XML文件中加入处理逻辑,从而是XML管 道具备动态的特性。
官方主页:
http://cocoon.apache.org/
XSL-FO:
XSL 格式化对象规范是 W3C 的正式建议,通常称其为 XSL-FO,XSL-FO 定义了许多 XML 标记,这些标记描述了应如何显示内容。
XSL-FO 文档定义了制作高质量可打印文档时非常重要的几件事情:
· 有关页面的实际大小的信息(信纸和 A4 等等)
· 有关页边距(顶部、左边、底部和右边)、页眉和页脚和页面其它特性的信息
· 有关文本的字体、字体大小、颜色和其它特征的信息
· 要打印的实际文本,由描述段落、突出显示、表等类似物的元素来标记
研读 W3C 站点(w3.org/TR/xsl)上的 XSL-FO 规范(总共 400 页)。
有关 XSL-FO 的更多一般信息,请访问位于 w3.org/style/xsl/ 的 W3C Style 页面。
XSL-FO详细教程:
http://www-900.ibm.com/developerWorks/cn/cnedu.nsf/xml-onlinecourse-bytitle/3B308072632F949FC8256D320006CA3F?OpenDocument
FOP
FOP (Formatting Objects Processor) 是第一个基于XSL:FO的打印格式处理器,也是第一个与输出无关的格式处理器。它是一个Java程序,能够从对象树中读入然后生成渲染过的页面输出到指定的流。目前支持的输出格式有PDF,PCL,PS,SVG,XML(以树形结构表示),打印机,AWT,MIF和TXT。最主要的输出指的是PDF。
James Tauber - FOP 的最初作者。他开发了该工具的原始版本,而且很大方地开放了该代码,后来又将它移交给 Apache XML Project。
从 xml.apache.org/dist/fop 下载 Apache XML 项目的 FOP 软件包。
FO工具
JFOR(Java xsl-FO to Rtf converter)是把依照XSL-FO规范的XML文档转换成RTF(Rich-Text Format)格式, 它的目的与把XSL-FO(通常用XSLT生成)文档转换成PDF(使用FOP或其他类似的工具)相似。
WH2FO及其验证工具FOA的作者是Fabio Giannetti。WH2FO 是一个处理由Word 2000产生的HTML的Java应用程序,并把它们转换成XML内容文件和XSL样式表文件。从这些文件,一个标准的XSLT处理器可能获得只含有XSL-FO标记的fo文件。也可以应用样式表把XML文件转换成HTML,这样做就丢弃了Word额外补充进来的标记。使用XSL-FO Render,比如FOP,能够进一步渲染成PDF。
本文地址:http://com.8s8s.com/it/it43481.htm