GroupDocs Parser のGetTextのバグ

GroupDocs.Parser でPDFファイルをGetTextを実行した際に永遠にメモリを消費し実行が終わらないファイルがあります。
回避する方法はありませんか?

1 Like

PDFファイルを直接サポートに送ることはできますか?

以下のコードで再現します。

  var ret = openFileDialog1.ShowDialog();
        if(ret != DialogResult.OK)
            return;

        string file = openFileDialog1.FileName;
        Parser parser = new Parser(file);
        using (TextReader reader = parser.GetText())
        {
            string readText = reader.ReadToEnd();
            Console.WriteLine(reader == null ? "Text extraction isn't supported" : readText);
        }
        parser.Dispose();

@jfeadco

はい、問題のあるPDFを私たちと共有してください。ここでファイルを共有したくない場合は、プライベートメッセージで送信できます。次に、アプリケーションで使用しているAPIバージョン(20.1、20.5など)を共有してください。

プライベートメッセージでPDFを送信しました。
APIバージョンは 20.6.1 です。

1 Like

@jfeadco

詳細ありがとうございます。この問題は最後に再現されますが、スキャンされたPDFドキュメントを解析しようとしているためと考えられます。ただし、さらに調査するために、ID PARSERNET-1578でチケットを内部の問題追跡システムに記録しました。更新があるため、通知されます。

複数のPDFファイルを読み取るため,スキャンされたPDFを判断できません。
例外が発生すれば対応できますが,例外も発生せずメモリを永遠に消費するためGroupdocs Parserを使用できません。
Parser または他の方法でスキャンされたPDFかどうか判断できますか?

1 Like

@jfeadco

はい、この問題を改善する可能性を調査しています。更新がある場合は通知されます。

@jfeadco

報告された問題 PARSERNET-1578は、APIバージョン20.10で修正されました。