[COCOON+Jfor]将FO转换为RTF格式文档

类别:.NET开发 点击:0 评论:0 推荐:

[COCOON+Jfor]FO转换为RTF格式文档

 
继续阅读之前,我们假设您熟悉以下知识,也可以参考本文后面的附录:

n         Cocoon(Apache组织的XML项目中的八个子项目之一)

n         XSL Formatting Objects (XSL-FO)

n         FOP(Formatting Objects Processor)

n         Jfor(Open-Source Java XSL-FO to RTF converter)

关键词:

cocoonjforxmlxsl-fo

摘要:

对于如何把PDF格式文档转换为Word文档,我们的思路是,能不能这样:PDFàFOàRTF

     首先,我们来看看如何将FO转换为RTF格式。我们可以让Cocoon+Jfor做到这一点。

概述

我们已经知道利用WH2FOFOP可以把Word2000文档成功转换为PDF格式文档。

第一步,将Word转换为XSL-FO,具体的OpenSource可以在http://www-uk.hpl.hp.com/people/fabgia/wh2fo/wh2fo.html找到。

第二步,按照http://www-900.ibm.com/developerWorks/cn/xml/x-xslfo2app/index.shtml

的指导,将XSL-Fo转换为PDF

简单的命令例子:

> java org.apache.fop.apps.Fop everything.fo everything.pdf

或者安装了FOP(http://apache.linuxforum.net/dist/xml/fop/)之后,运行:

fop.cmd sample.fo sample.pdf

即可输出PDF文件。

 

那么现在,我们如何反过来做呢?把PDF文件转换为Word文件。

Microsoft KB上都声称并没有提供直接的方法,他们的建议是,你用Acrobat Reader 5.0打开PDF文件,用Copy Text或者Copy Image命令把所需要的内容粘贴到Word里。还有人声称可以用Acrobat Reader 5.0另存为RTF格式。

HOW TO: Convert Adobe Acrobat Reader (*.pdf) Files in Word 2002 (290927)

- This article explains how to convert a Portable Document Format (PDF) document from Adobe Acrobat Reader to Microsoft Word.

PDFàFOàRTF

我们的思路是,能不能这样:PDFàFOàRTF

首先,我们来看看如何将FO转换为RTF格式。我们可以让Cocoon+Jfor做到这一点:

安装Cocoon

安装Cocoon相对来说非常简单。分成这么几个步骤:

第一步,安装JDK:

确保你的JDK版本足够高,我的是j2sdk1.4.2_02;之后设置JAVA_HOMEJDK目录,或者运行命令:

Set java_home = F:\j2sdk1.4.2_02

 

第二步,安装cocoon:

下载cocoon 2.1.3

The latest source distribution (Cocoon 2.1.3):

·         TAR/GZIP format (Unix platforms): cocoon-latest-src.tar.gz

·         ZIP format (Windows platforms): cocoon-latest-src.zip

解压之后,运行cocoon-2.1.3根目录下的build.bat,来编译cocoon

E:\cocoon-2.1.3>build

Using Java from F:\j2sdk1.4.2_02\

Buildfile: build.xml

 

prepare:

+-----------------------------------------------------------+

             Apache Cocoon 2.1.3 [1999-2003]

+-----------------------------------------------------------+

 Building with Apache Ant version 1.5.4 compiled on August 12 2003

validate-jars:

Copying 1 file to E:\cocoon-2.1.3\build\cocoon-2.1.3\temp

 

validate-config:

Validating configuration files

Validating cocoon.xconf using a very basic RELAX NG grammar ...

 

BUILD SUCCESSFUL

Total time: 2 minutes 30 seconds

编译成功之后,我们可以试试看cocoon的效果。

第三步,启动cocoon:

本质上,cocoon还是一个servlet。请运行cocoon-2.1.3根目录下的cocoon.bat,来启动cocoon

E:\cocoon-2.1.3>cocoon servlet

cocoon.bat: using .\build\webapp as the webapp directory

于是乎,就出现了cocoon的运行窗口:

 

让我们试试看效果:打开IE,输入

http://localhost:8888

即可看到:

 

Okay,一切正常。

现在,我们要来试试FOàRTF的转换了。前提是,必须把Jfor的包放入cocoon下。

第四步,安装JforCocoon:

Jfor的官方站点

http://www.jfor.org/

下载Jfor二进制包。地址是:

http://prdownloads.sourceforge.net/jfor/jfor-0.7.2rc1.jar?download

 

下载了jfor-0.7.2rc1.jar,把它放在

cocoon-2.1.3\lib\optional

子文件夹下。

 

然后重新build一遍cocoon,步骤同第二步。

再次启动cocoon servlet

    

第五步,一个XMLàRTF的例子:

cocoon-2.1.3\build\webapp\

目录下新建一个文件夹,例如名字就叫“RtfDemo”。

 

建立这么几个文件:

sitemap.xmap

<?xml version="1.0"?>

 

<!-- CVS $Id: sitemap.xmap,v 1.12 2003/07/29 03:15:47 vgritsenko Exp $ -->

 

<map:sitemap xmlns:map="http://apache.org/cocoon/sitemap/1.0">

 

<!-- ================== Views ========================= -->

 

 <map:views>

  <map:view name="content" from-label="content">

   <map:serialize type="xml"/>

  </map:view>

 

  <map:view from-label="content" name="pretty-content">

    <map:transform src="context://stylesheets/system/xml2html.xslt"/>

    <map:serialize type="html"/>

  </map:view>

 

  <map:view name="links" from-position="last">

   <map:serialize type="links"/>

  </map:view>

 </map:views>

 

<!-- ================ Pipelines ====================== -->

 

 <map:pipelines>

  <map:pipeline>

 

<!-- ================ MyFO2RTF =================== -->

<map:match pattern="hello.rtf">

       <map:generate src="fo/hello.xml"/>

       <map:transform src="fo/page2fo.xsl"/>

       <map:serialize type="fo2rtf"/>

</map:match>

<!-- ================ MyFO2RTF =================== -->

 

  </map:pipeline>

 </map:pipelines>

</map:sitemap>

 

sitemap.xmap是一个当前站点的配置,非常重要。“map:match”节点指明了如何转换。

 

新建一个子文件夹Fo,其中放置这么两个文件:

hello.xml

<?xml version="1.0" encoding="gb2312"?>

 

<!-- CVS $Id: hello.xml,v 1.3 2003/05/07 04:57:13 vgritsenko Exp $ -->

<page>

 <title>BPA</title>

 <content>

  <para>美国当地时间1112日,微软发布了SQL Server 2000的开发支援工具“Best Practices AnalyzerBPA)”。 BPA是一种旨在构筑便于管理的SQL Server应用的工具。不仅可以防止导入SQL Server时遗忘设定等,而且还可以用于数据库的管理。微软从当天起通过该公司的Web站点开始提供该工具的β版。 !</para>

 </content>

</page>

page2fo.xsl

<?xml version="1.0"?>

 

<!-- CVS $Id: page2fo.xsl,v 1.2 2003/05/07 04:57:13 vgritsenko Exp $ -->

 

<xsl:stylesheet version="1.0"

  xmlns:xsl="http://www.w3.org/1999/XSL/Transform"

  xmlns:fo="http://www.w3.org/1999/XSL/Format">

 

  <xsl:template match="/">

   <fo:root xmlns:fo="http://www.w3.org/1999/XSL/Format">

   

    <fo:layout-master-set>

     <fo:simple-page-master master-name="page"

                  page-height="29.7cm"

                  page-width="21cm"

                  margin-top="1cm"

                  margin-bottom="2cm"

                  margin-left="2.5cm"

                  margin-right="2.5cm">

       <fo:region-before extent="3cm"/>

       <fo:region-body margin-top="3cm"/>

       <fo:region-after extent="1.5cm"/>

     </fo:simple-page-master>

 

     <fo:page-sequence-master master-name="all">

       <fo:repeatable-page-master-alternatives>

        <fo:conditional-page-master-reference master-reference="page" page-position="first"/>

       </fo:repeatable-page-master-alternatives>

     </fo:page-sequence-master>

    </fo:layout-master-set>

 

    <fo:page-sequence master-reference="all">

      <fo:static-content flow-name="xsl-region-after">

       <fo:block text-align="center"

                 font-size="10pt"

                font-family="serif"

                line-height="14pt">page <fo:page-number/></fo:block>

      </fo:static-content>

 

      <fo:flow flow-name="xsl-region-body">

        <xsl:apply-templates/>

      </fo:flow>

    </fo:page-sequence>

   </fo:root>

  </xsl:template>

 

  <xsl:template match="title">

    <fo:block font-size="36pt" space-before.optimum="24pt" text-align="center"><xsl:apply-templates/></fo:block>

  </xsl:template>

 

  <xsl:template match="para">

    <fo:block font-size="12pt" space-before.optimum="12pt" text-align="center"><xsl:apply-templates/></fo:block>

  </xsl:template>

</xsl:stylesheet>

 

好了,一切准备就绪。

浏览

http://localhost:8888/rtfdemo/hello.rtf

就可以看到RTF版本的输出了,你可以另存为hello.rtf

 

同时,cocoon的窗口也输出了这个过程:

12:39:40.852 EVENT  Started SocketListener on 0.0.0.0:8888

12:39:40.852 EVENT  Started org.mortbay.jetty.Server@1037c71

jfor.INFO:jfor V0.7.1 - setting up conversion...

jfor.INFO:Parsing xsl:fo document...

jfor.INFO:Writing out RTF...

jfor.INFO:Done converting xsl:fo to RTF.

jfor.DEBUG:conversion took 80 milliseconds.

jfor.INFO:jfor V0.7.1 - setting up conversion...

jfor.INFO:Parsing xsl:fo document...

 

好了,用Cocoon+Jfor这么简单就实现了XMLàRTF。不过,这还是万里长征第一步。

待续。

 

缩略语清单:

Cocoon

CocoonApache组织的XML项目中的八个子项目之一根据Apache官方定义Cocoon是一项XML发布框架。它允许你定义XML文档和文档的转换,并最终生成你所选择的表 示形式,例如HTML, PDF, SVG, VRML等等。另外,Cocoon使你能够在XML文件中加入处理逻辑,从而是XML 道具备动态的特性。

官方主页

http://cocoon.apache.org/

 

XSL-FO

XSL 格式化对象规范是 W3C 的正式建议,通常称其为 XSL-FOXSL-FO 定义了许多 XML 标记,这些标记描述了应如何显示内容。

XSL-FO 文档定义了制作高质量可打印文档时非常重要的几件事情:

·         有关页面的实际大小的信息(信纸和 A4 等等)

·         有关页边距(顶部、左边、底部和右边)、页眉和页脚和页面其它特性的信息

·         有关文本的字体、字体大小、颜色和其它特征的信息

·         要打印的实际文本,由描述段落、突出显示、表等类似物的元素来标记

研读 W3C 站点w3.org/TR/xsl上的 XSL-FO 规范总共 400

有关 XSL-FO 的更多一般信息请访问位于 w3.org/style/xsl/ W3C Style 页面。

XSL-FO详细教程

http://www-900.ibm.com/developerWorks/cn/cnedu.nsf/xml-onlinecourse-bytitle/3B308072632F949FC8256D320006CA3F?OpenDocument

 

FOP 

FOP (Formatting Objects Processor) 是第一个基于XSL:FO的打印格式处理器也是第一个与输出无关的格式处理器。它是一个Java程序,能够从对象树中读入然后生成渲染过的页面输出到指定的流。目前支持的输出格式有PDF,PCL,PS,SVG,XML(以树形结构表示),打印机,AWT,MIFTXT。最主要的输出指的是PDF

James Tauber FOP 的最初作者。他开发了该工具的原始版本,而且很大方地开放了该代码,后来又将它移交给 Apache XML Project

xml.apache.org/dist/fop 下载 Apache XML 项目的 FOP 软件包。

 

FO工具

JFOR(Java xsl-FO to Rtf converter)是把依照XSL-FO规范的XML文档转换成RTF(Rich-Text Format)格式, 它的目的与把XSL-FO(通常用XSLT生成)文档转换成PDF(使用FOP或其他类似的工具)相似。

WH2FO及其验证工具FOA的作者是Fabio GiannettiWH2FO 是一个处理由Word 2000产生的HTMLJava应用程序,并把它们转换成XML内容文件和XSL样式表文件。从这些文件,一个标准的XSLT处理器可能获得只含有XSL-FO标记的fo文件。也可以应用样式表把XML文件转换成HTML,这样做就丢弃了Word额外补充进来的标记。使用XSL-FO Render,比如FOP,能够进一步渲染成PDF

本文地址:http://com.8s8s.com/it/it43481.htm