استخراج متن از یک فایل PDF با استفاده از کپی کردن به طور منظم همیشه امکان پذیر نیست. غالباً صفحات چنین اسنادی به صورت اسکن شده در نسخه های کاغذی آنها است. برای تبدیل چنین پرونده هایی به داده های متنی کاملاً قابل ویرایش ، از برنامه های ویژه با عملکرد نوری تشخیص نویسی (OCR) استفاده می شود.
اجرای چنین تصمیماتی بسیار دشوار است و بنابراین هزینه زیادی را به همراه دارد. اگر لازم است متن را از PDF بطور مرتب تشخیص دهید ، توصیه می شود برنامه مناسب را خریداری کنید. در موارد نادر استفاده از یکی از سرویس های آنلاین موجود با کارکردهای مشابه منطقی تر خواهد بود.
نحوه تشخیص متن از PDF به صورت آنلاین
البته دامنه ویژگی های خدمات آنلاین OCR ، در مقایسه با راه حل های رومیزی تمام عیار ، محدودتر است. اما همچنین می توانید با چنین منابعی بصورت رایگان و یا با هزینه اسمی کار کنید. نکته اصلی این است که با وظیفه اصلی آنها ، یعنی با تشخیص متن ، برنامه های وب مربوطه نیز مطابقت دارند.
روش 1: ABBYY FineReader آنلاین
شرکت توسعه خدمات یکی از رهبران در زمینه شناخت اسناد نوری است. ABBYY FineReader برای ویندوز و مک یک راه حل قدرتمند برای تبدیل PDF به متن و کار بیشتر با آن است.
البته آنالوگ مبتنی بر وب برنامه ، از نظر عملکردی پایین تر از آن است. با این وجود ، این سرویس می تواند متن را از اسکن ها و عکس ها در بیش از 190 زبان تشخیص دهد. تبدیل فایلهای PDF به اسناد Word ، Excel و غیره پشتیبانی می شوند.
سرویس آنلاین آنلاین ABBYY FineReader
- قبل از شروع کار با ابزار ، یک حساب کاربری در سایت ایجاد کنید یا با استفاده از حساب Facebook ، Google یا Microsoft خود وارد شوید.
برای رفتن به پنجره مجوز ، روی دکمه کلیک کنید "ورودی" در نوار منوی بالا - پس از ورود به سیستم ، با استفاده از دکمه ، PDF-dokument مورد نظر را در FineReader وارد کنید "بارگذاری پرونده ها".
سپس کلیک کنید "شماره صفحه را انتخاب کنید" و فاصله مورد نظر برای تشخیص متن را مشخص کنید. - بعد ، زبانهای موجود در سند ، قالب پرونده حاصل را انتخاب کنید و بر روی دکمه کلیک کنید "شناخت".
- پس از پردازش ، مدت زمان آن به طور کامل به حجم سند بستگی دارد ، می توانید فایل مورد نظر را با داده های متنی به سادگی با کلیک روی نام آن بارگیری کنید.
یا آن را به یکی از سرویس های ابری موجود صادر کنید.
این سرویس احتمالاً با دقیق ترین الگوریتم های تشخیص متن در تصاویر و فایل های PDF متمایز است. اما ، متأسفانه ، استفاده رایگان آن محدود به پنج صفحه پردازش شده در هر ماه است. برای کار با اسناد گسترده تر ، باید یک اشتراک سالانه خریداری کنید.
با این حال ، اگر OCR به ندرت مورد نیاز باشد ، ABBYY FineReader Online گزینه بسیار خوبی برای استخراج متن از پرونده های کوچک PDF است.
روش 2: OCR آنلاین رایگان
سرویس ساده و راحت برای دیجیتالی کردن متن. بدون ثبت نام ، این منبع به شما امکان می دهد 15 صفحه PDF کامل در ساعت را بشناسید. OCR رایگان آنلاین کاملاً با اسناد به 46 زبان کار می کند و بدون مجوز از سه قالب صادرات متن پشتیبانی می کند - DOCX ، XLSX و TXT.
در هنگام ثبت نام ، کاربر فرصت پردازش اسناد چند صفحه ای را می یابد ، اما تعداد رایگان همین صفحات مشابه به 50 واحد محدود می شود.
خدمات آنلاین رایگان OCR
- برای تشخیص متن از PDF به عنوان "مهمان" ، بدون مجوز در منبع ، از فرم مناسب در صفحه اصلی سایت استفاده کنید.
با استفاده از دکمه ، سند مورد نظر را انتخاب کنید پرونده، زبان اصلی متن ، قالب خروجی را مشخص کنید ، سپس صبر کنید تا پرونده بارگذاری شود و کلیک کنید تبدیل کنید. - در پایان فرآیند دیجیتالی زدن ، کلیک کنید "بارگیری فایل خروجی" برای ذخیره کردن سند پایان یافته با متن بر روی رایانه.
برای کاربران مجاز ، توالی اقدامات تا حدودی متفاوت است.
- از دکمه استفاده کنید "ثبت نام" یا "ورودی" در نوار منوی بالا ، بر این اساس ، یک حساب OCR Free Online ایجاد کنید یا به آن وارد شوید.
- پس از مجوز در پانل تشخیص ، کلید را نگه دارید CTRLاز لیست ارائه شده حداکثر دو زبان سند منبع را انتخاب کنید.
- گزینه های بیشتر برای استخراج متن از PDF را مشخص کنید و کلیک کنید پرونده را انتخاب کنید برای بارگذاری یک سند در سرویس.
سپس ، برای شروع تشخیص ، کلیک کنید تبدیل کنید. - در پایان پردازش سند ، روی پیوند با نام پرونده خروجی در ستون مربوطه کلیک کنید.
نتیجه تشخیص بلافاصله در حافظه رایانه شما ذخیره می شود.
اگر شما نیاز به استخراج متن از یک سند کوچک PDF دارید ، می توانید با خیال راحت به استفاده از ابزار فوق متوسل شوید. برای کار با پرونده های حجیم ، باید شخصیت های دیگری را در OCR Free Online بخرید یا از یک راه حل دیگر استفاده کنید.
روش 3: NewOCR
سرویس OCR کاملاً رایگان که به شما امکان می دهد متن را از تقریباً هر اسناد گرافیکی و الکترونیکی مانند DjVu و PDF استخراج کنید. این منبع محدودیت در اندازه و تعداد پرونده های شناخته شده ایجاد نمی کند ، نیازی به ثبت نام ندارد و طیف گسترده ای از عملکردهای مرتبط را ارائه می دهد.
NewOCR از 106 زبان پشتیبانی می کند و می تواند حتی اسکن های اسناد کم کیفیت را به درستی پردازش کند. می توانید به صورت دستی منطقه را برای تشخیص متن در صفحه پرونده انتخاب کنید.
سرویس آنلاین NewOCR
- بنابراین ، بدون نیاز به انجام اقدامات غیر ضروری ، می توانید بلافاصله با یک منبع شروع به کار کنید.
درست در صفحه اصلی یک فرم برای وارد کردن یک سند به سایت وجود دارد. برای بارگذاری پرونده در NewOCR ، از دکمه استفاده کنید "پرونده را انتخاب کنید" در بخش "پرونده خود را انتخاب کنید". سپس در این زمینه "زبان (ها) تشخیص" یک یا چند زبان سند منبع را مشخص کنید ، سپس کلیک کنید "بارگذاری + OCR". - تنظیمات تشخیص دلخواه خود را تنظیم کنید ، صفحه مورد نظر برای استخراج متن را انتخاب کنید و بر روی دکمه کلیک کنید OCR.
- کمی صفحه را پایین بیاورید و دکمه را پیدا کنید "بارگیری".
بر روی آن کلیک کنید و در لیست کشویی قالب موردنیاز برای بارگیری را انتخاب کنید. پس از آن ، فایل تمام شده با متن استخراج شده به رایانه شما بارگیری می شود.
ابزار مناسب است و با کیفیت نسبتاً بالا همه شخصیت ها را می شناسد. با این حال ، پردازش هر صفحه از سند PDF وارد شده باید بطور مستقل آغاز شود و در یک پرونده جداگانه نمایش داده شود. البته می توانید بلافاصله نتایج تشخیص را در کلیپ بورد کپی کرده و آنها را با دیگران ترکیب کنید.
با این وجود ، با توجه به تفاوت هایی که در بالا توضیح داده شد ، استخراج مقادیر زیادی متن با استفاده از NewOCR بسیار دشوار است. با استفاده از پرونده های کوچک ، سرویس با ضربات متوقف می شود.
روش 4: OCR.Space
یک منبع ساده و قابل فهم برای دیجیتالی کردن متن ، به شما امکان می دهد اسناد PDF را بشناسید و نتیجه را به پرونده TXT برسانید. هیچ محدودیتی در تعداد صفحات ارائه نشده است. تنها محدودیت این است که اندازه سند ورودی نباید از 5 مگابایت تجاوز کند.
سرویس آنلاین OCR.Space
- ثبت نام برای کار با ابزار لازم نیست.
فقط پیوند بالا را دنبال کنید و با استفاده از دکمه ، سند PDF را از طریق رایانه به وب سایت بارگذاری کنید "پرونده را انتخاب کنید" یا از شبکه - توسط مرجع. - در لیست کشویی "انتخاب زبان OCR" زبان سند وارد شده را انتخاب کنید.
سپس با کلیک بر روی دکمه ، روند تشخیص متن را شروع کنید "شروع OCR!". - در پایان پردازش پرونده ، نتیجه را در فیلد بخوانید نتیجه OCR'ed و کلیک کنید "بارگیری"برای بارگیری سند TXT تمام شده.
اگر شما فقط نیاز به استخراج متن از PDF دارید و در عین حال قالب بندی نهایی آن اصلاً مهم نیست ، OCR.Space انتخاب خوبی است. تنها نکته این است که سند باید یک زبانه باشد ، زیرا شناخت دو یا چند زبان همزمان در این سرویس ارائه نمی شود.
همچنین ببینید: آنالوگ های رایگان FineReader
با ارزیابی ابزارهای آنلاین ارائه شده در مقاله ، لازم به ذکر است که FineReader Online از ABBYY عملکرد OCR را با دقت و کارآمدتری انجام می دهد. اگر حداکثر دقت در تشخیص متن برای شما مهم است ، بهتر است این گزینه را به طور خاص در نظر بگیرید. اما به احتمال زیاد ، باید هزینه آن را نیز بپردازید.
اگر به دیجیتالی کردن اسناد کوچک نیاز دارید و آماده هستید که به طور مستقل خطاها را در این سرویس تصحیح کنید ، توصیه می شود از NewOCR ، OCR.Space یا OCR Free Online استفاده کنید.