문서 파일에서 단어 종류별로 단어수 세는 방법
2016.12.12 21:42
문서 파일 안에서 사용되어진 단어별로 통계를 내주는 프로그램이나 방법이 있을까요?
전체 단어숫자가 아니라, 각각의 단어별로 통계가 나와야 합니다. 아무리 찾아봐도 방법을 모르겠네요.
예를 들면 위 문단의 경우, "문서:1회, 파일: 1회, 단어: 3회. 통계: 2회..,,," 이런식으로 말이죠.
한글 단어를 인식해야하며, 인식되는 문서 파일의 포맷은 pdf이면 좋지만 다른 포맷이어도 큰 상관은 없습니다. 정확도가 꼭 100%일 필요는 없고, 대강이라도 맞으면 됩니다.
쉽게 사용할수 있는 자동화된 프로그램이면 좋겠지만, 그런게 없고 프로그래밍을 해야 된다던지 뭔가 복잡한 방법이라면 검색해볼수 있게 키워드만 알려주셔도 됩니다.
코멘트 11
-
대머리아자씨
12.12 22:36
-
쿠후^^
12.13 11:21
오.. 딱 제가 찾을려던 사이트네요. 맘에 드네요. 감사합니다.
word counter로 검색을 해서 제가 사이트 하나를 더 찾았습니다.
https://wordcounttools.com/
여긴 여러가지 잡기능이 추가된거 같습니다. 근데 테스트 해보니, 추천해 주신 사이트가 더 정확도가 높은거 같습니다.
-
대머리아자씨
12.13 11:32
여기도 써봤는데요.
저 역시 마음에 딱 들지는 않더라고요.
^^
-
사드사랑
12.13 00:01
이런 온라인 툴을 사용할때 주의하실 점은 계정 정보같은 보호되어야 하는 정보가 포함된 파일이 아닌지 입니다.
또 우리말 단어인식은 조금 까다로운데, 조사가 붙은 단어를 다른 단어로 인식하게되면 신뢰도가 상당히 떨어지는 결과를 얻게되는 것이죠. 한글을 인식못하는 툴로 조사를 떼내면, 단어가 망가지는 경우도 있었습니다.
-
쿠후^^
12.13 11:23
네 말씀하신거 처럼 조사를 구분을 못해서 정확도가 떨어지는 문제가 있네요. 근데 전 아주 정확할 필요는 없어서 위 사이트 정도로도 만족합니다.
한글 전용 사이트가 있나 찾아봤는데, 전혀 없는거 같네요.
-
대머리아자씨
12.13 06:49
제가 올린 곳은 텍스트를 긁어올리는 곳이라 파일정보는 안 가고. 소팅이 되어 간단히 덧셈만 하면 되더라고요.
말씀하신 것처럼 파일을 올리는 방식은 좀 위험할 것 같습니다. -
사드사랑
12.13 10:25
html을 읽어보니까요..
<form method="post".. >
이런 부분이 나옵니다. 아마도 저 form에 넣는 text를 저 사이트로 upload하게 되는듯 합니다. 위험할듯.
-
대머리아자씨
12.13 10:59
그러면 비밀스러운 내용은 넣으면 안 되겠네요.
-
영진
12.15 08:56
비슷한 기능으로 워드 자체의 기능인 mark entry기능은 단어/구의 출현을 목록으로 만들어주는 기능인데 저도 유용하게 쓰고 있는 기능입니다.
업데이트가 편하므로 pdf라면 불러들여서 작업하시면 좋아요.
-
쿠후^^
12.17 10:02
일단 저는 문서에서 사용된 전체 단어의 빈도를 알려고 하는거라, 위 기능하고는 좀 차이가 있네요.
근데, 원 질문과 상관없이 올려주신거도 유용해보이는군요. 저렇게 자동으로 인덱스를 만들수가 있군요. 전 일일히 수동으로 해야 되는지 알았는데..
마침 어제 이집트산 오피스를 싸게 샀는데, 나중에 저 기능도 써봐야 겠습니다. 감사합니다.
-
영진
12.15 09:26
또 워드에서 간단히 사용할수 있는 방법:
ctrl+h로 'find & replace'창을 띄웁니다.
fint what:칸에는 검색어를 넣고,
replace with: 칸에는 '^&'를 넣고
전체치환을 하면,
치환된 결과값, 즉 단어수가 나옵니다.
자주사용하면 매크로로 만들어놓으면 좋겠죠
여러 군데 사용해봤는데...
http://www.textfixer.com/tools/online-word-counter.php
저는 여기가 제일 편하더라고요.
한글, 영문 모두 기호로 보기 때문에 가능합니다.
그냥 텍스트 붙이면 카운트 해주고, 통계 내줍니다.
이런 프로그램이 있는지 알아보고, 프로그램을 짜달라고 하니 몇 백을 부르던데, 이렇게 온라인에 있다는 것을 알고 얼마나 좋았는지.... 저는 개인 작업하는 데에 매우 요긴하게 사용하고 있습니다.
크게 힘들이지 않고 찾으신 것을, 먼저 고민했던 한 사람으로 축하드립니다.
찾고 헤매느라고 정말 고민 많았습니다.
이런 사이트를 만들어주신 분께 그저 감사, 또 감사드립니다.