はじめて投稿させて頂きます。
当方、特許事務所において特許出願の電子業務を行っており、現在、書類作成用ソフトとしてOpenOfficeへの切り替えを検討しています。
特許出願書類は現在、特許庁独自仕様のHTMLファイルで行うこととされており、その特許HTML文書では、ヘッダも存在せず、改行タグ<BR>などの必要最小限のHTMLタグしか使用されていないとともに、文字コードはshift jisコードで保存されています。
このような特許HTML文書が過去数年分大量に存在し、これらに修正を行うことなくOpenoffice Writerにて文字化けなく読み込みたいのですが、どうもUTF-8として読み込んでいるようで文字化けしてしまい、また、オプション設定を一通りみてみても標準の読み込み時の文字コードを設定する箇所もなさそうに思われます。
Openofficeでは、文字コードを指定するヘッダ情報を追加しない限り、shift jisとしてhtml文書を読み込ませることはできないのでしょうか。
また、何か役立ちそうな情報など御座いましたら教えていただければ幸甚です。
特許出願HTML文書の読み込み時の文字化けについて
特許出願HTML文書の読み込み時の文字化けについて
OpenOffice 3.2.1 on Windows 7 Professional 64bit
Re: 特許出願HTML文書の読み込み時の文字化けについて
Hi murapat san,
特許HTML文書というのはどのようなものなのでしょうか。
サンプルをこちらにアップロードしていただけませんか。
また、これまではどのようなソフトでその特許HTML文書を管理していたのしょうか。
少し調べました。
http://htmllint.itc.keio.ac.jp/htmllint/notice.html#jpo
こちらを読むと特許出願用HTMLというのはかなり変わったもののようですね。
http://faq.inpit.go.jp/EokpControl?&tid ... ent=FE0006
こちらにはそのHTMLはなくPDFとWordだけのようです。
現在は特許出願用HTMLは使われていないのでしょうか。
いつ頃からいつ頃までの特許出願文書が特許出願用HTMLとして存在しているのでしょうか。
よろしくお願いいたします。
Thanks,
khirano
特許HTML文書というのはどのようなものなのでしょうか。
サンプルをこちらにアップロードしていただけませんか。
また、これまではどのようなソフトでその特許HTML文書を管理していたのしょうか。
少し調べました。
http://htmllint.itc.keio.ac.jp/htmllint/notice.html#jpo
こちらを読むと特許出願用HTMLというのはかなり変わったもののようですね。
http://faq.inpit.go.jp/EokpControl?&tid ... ent=FE0006
こちらにはそのHTMLはなくPDFとWordだけのようです。
現在は特許出願用HTMLは使われていないのでしょうか。
いつ頃からいつ頃までの特許出願文書が特許出願用HTMLとして存在しているのでしょうか。
よろしくお願いいたします。
Thanks,
khirano
Apache OpenOffice 4.0 on Windows Vista
Re: 特許出願HTML文書の読み込み時の文字化けについて
特許HTMLのひな形は、下記URLからダウンロード可能です。
https://dl-sv1.pcinfo.jpo.go.jp/update/ ... net_w.html
<HTML>
<BODY>
【書類名】 特許願<BR>
【整理番号】 000000000<BR>
【あて先】 特許庁長官 殿<BR>
【国際特許分類】 A00J 1/00<BR>
【発明者】<BR>
(中略)
</BODY>
</HTML>
のような最低限のタグだけが使用されたテキストファイル(文字コードはshift jis)です。
現在は一太郎とWordを使用しています。現在、市販のワープロソフトで特許HTMLに完全準拠しているのは一太郎のみで、保存時に「特許HTML」形式を指定することで不要なタグのない、上記のようなファイルが出力されます。WordでHTML形式で保存したものでもインターネット出願ソフトに読み込ませることはできますが、不要なタグが多数埋め込まれてしまうため警告の山になります。
Wordでも一太郎でも、ヘッダに文字コード情報がなくとも、読み込み時はshift jisとして読み込んでくれるため、文字化けは発生しません。
https://dl-sv1.pcinfo.jpo.go.jp/update/ ... net_w.html
<HTML>
<BODY>
【書類名】 特許願<BR>
【整理番号】 000000000<BR>
【あて先】 特許庁長官 殿<BR>
【国際特許分類】 A00J 1/00<BR>
【発明者】<BR>
(中略)
</BODY>
</HTML>
のような最低限のタグだけが使用されたテキストファイル(文字コードはshift jis)です。
現在は一太郎とWordを使用しています。現在、市販のワープロソフトで特許HTMLに完全準拠しているのは一太郎のみで、保存時に「特許HTML」形式を指定することで不要なタグのない、上記のようなファイルが出力されます。WordでHTML形式で保存したものでもインターネット出願ソフトに読み込ませることはできますが、不要なタグが多数埋め込まれてしまうため警告の山になります。
Wordでも一太郎でも、ヘッダに文字コード情報がなくとも、読み込み時はshift jisとして読み込んでくれるため、文字化けは発生しません。
OpenOffice 3.2.1 on Windows 7 Professional 64bit