정규식을 사용해서 한글만 추출하려면?

2014.04.21 21:37

질문하시기 전에 게시판 검색을 먼저 해주세요.
타블릿PC, 스마트폰에 관한 질문 또는 요청은 <포터블기기 질문답변> 게시판을 이용해주세요.
=============================================================================================

** 이 게시판은 댓글이 달리면 게시물을 삭제할 수 없습니다. **

** 내용의 장기노출이 곤란한 경우 [수정]을 통해 내용을 변경하시기 바랍니다. **

안녕하세요.

아래와 같은 긴 텍스트가 있는데 여기서 한글만 추출하고 나머지를 다 지우고 싶습니다.

정규식 [ㄱ-ㅎ] 이런식으로 추출을 하니 한자한자만 추출이 되서

알아볼 수가 없더군요.

ttp://abc.com//안녕하세요

ttp://kcliff.com//여보세요

ttp://kadflkdfkff.com//홍길동/dldfkdiekd

ttp://aldkkekd.com//dldfkdiekd/한소리

[결과물]

안녕하세요

여보세요

홍길동

한소리

위와 같은 결과물을 추출하는 방법은 없을까요?

이 글을...

김강욱

04.21 22:41

정규식 너무 어려워요...털썩...TT

1) 그냥 영어나 특수문자, 숫자, 화이트 스페이스를 없애버리시면...근데...언어가 다르면 털썩~

2) [ㄱ-힣]\w+

3) [ㄱ-힣]

댓글의 댓글
왕초보

04.22 06:45

엥 일단.. 정규식이란 것을 수행하는 어플이 8비트를 이해해야 합니다. 일반 유닉스/리눅스 툴들은 모두 7비트 클린 툴들이라 정규식 써버리면 한글 다 깨진단.. ㄷㄷㄷ

정규식을 이용하는 것보다 C프로그램을 만들어서 돌리는 것 강추.

댓글의 댓글
김강욱

04.22 19:36

? 그...그런가요.

일단, Java 나 mysql 은 되는 듯 합니다만, 리눅스 툴은 생각안해봤...응? 근데 리눅스 툴 이름이 뭔가요? ^^

댓글의 댓글
왕초보

04.23 00:21

sed =3=3=3

댓글의 댓글
김강욱

04.23 01:13

아~ SE.. 말씀이시군요.

댓글의 댓글
dow

04.22 20:16

내용이 모두 위에 적은신 것과 같다면

gvim에서 file을 연후

:%s/[a-zA-Z]//g

:%s/\.//g

:%s/\///g

:%s/://g

:w!

댓글의 댓글
Freedom^^

04.24 11:28

gvim을 사용해봐야겠군요. 감사합니다. ^^

댓글의 댓글
midday

04.23 10:03

그냥 정규식만으로는 힘들거 같고, 왕초보님 말씀처럼 C나 Java로 프로그램을 돌리는 것이 훨씬 더 정확할 것으로 보입니다. 그런데 이 방식으로 해도, 어떤 방식으로 encoding된 문자열이냐에 따라 검출하는 로직이 완전히 달라질 겁니다.

왕초보님이 말씀하신 것처럼 7bit 혹은 8bit ansi로 되어 있다면 일단 거의 불가능하구요. (한글 단어를 전부 Dictionary로 가지고 있고 그걸 다 비교해봐야 70-80% 정도의 정확도를 가질 수 있을 겁니다.) unicode라면 unicode 코드에서 한글코드 영역안에 있는지 없는지 확인해보면 가능합니다. 물론 한글코드 영역에 대한 데이터를 별도로 가지고 있어야 하구요.

혹시 문제가, 유니코드임과 동시에 URL에 가능한 문자코드냐 아니냐..로 구분해야 하는건가요? 한글인지 태국어인지 구분할 필요가 없을 경우에 말이죠. 그럴 경우 각 문자열 안에 정보가 담겨 있기 때문에, 한글자씩 읽어들여 그 정보를 보면 됩니다.

혹시 어떤 인코딩인지 정보가 없다면, 그냥 전부 다 읽어들여서 "일반적으로 이런건 utf-8인 경우가 많지."라는 식으로 때려맞춰야 합니다.

댓글의 댓글
Freedom^^

04.24 11:27

텍스트파일이기 때문에 UTF나 ANSI나 모두 가능합니다.

생각해보니 정규식으로 영어와 특수문자를 모두 지우라고 명령을 주면 한글만 남지 않을까요?

댓글의 댓글
솔모리

05.09 20:14

저 위에 dow님 댓글이 바로 그거예요.

댓글의 댓글

번호	제목	작성자	작성일	조회
공지	게시판 성격에 맞지 않는 글은 예고없이 삭제합니다. [6]	星夜舞人	2011.10.10	224788
공지	[공지] 만능문답 게시판을 이용하는 분들을 위한 당부 말씀 [3]	iris	2010.03.16	204984
4480	휴대전화 분실신고에 대하여 [2]	야채	04.25	1982
4479	용산에 Tray CPU 전문으로 파는 곳? [2]	냠냠	04.25	1915
4478	가벼운 노트북 울트라북 추천 부탁드립니다 [12]	야다메	04.24	1788
4477	hdmi 출력을 지원하는 미니 동영상 플레이어? [12]	맑은샛별	04.22	2819
4476	영어 작문 질문 드립니다. [4]	이히힝	04.22	1659
»	정규식을 사용해서 한글만 추출하려면? [10]	Freedom^^	04.21	5496
4474	일본어 해석요청합니다.. 이거 언락제품이라는건가요? 락걸린거라는건가요? [4]	다카오카	04.21	2046
4473	자바 질문입니다. -.0 [6]	호수가	04.21	1537
4472	병원서 입원 중입니다. 그런데 링겔바늘을 한곳에 계속 꼽고 있습니다. 괜찮을까요? [6]	차칸앙마	04.20	5662
4471	대량의 사진파일들 한꺼번에 수정하는방법 좀 알려주세요 [3]	tapatio	04.20	1568
4470	퍼센트 인코딩을 한글로 다시 번역해줄 수 있는 프로그램이나 사이트가 있을까요? [3]	Freedom^^	04.19	1912
4469	크롬 구글 주소 검색시, 사이트에서 바로 검색하는 방법 [1]	김강욱	04.18	1782
4468	고려당 떡... [2]	matsal	04.18	1775
4467	전자사전 추천 좀 해주세요. [28]	Alphonse	04.17	6382
4466	전원이 필요 없는 PC 스피커도 있나요? [13]	Alphonse	04.17	4502
4465	캐드강습 알바글은 어느 게시판에 올리면 좋을까요? [4]	미케니컬	04.17	1534
4464	컴터에서 "허브포트의 전원 불량"이런 문구가 뜹니다 [3]	몽배	04.17	1865
4463	사기죄가 성립이 되나요? [9]	성하니	04.17	2403
4462	차 배터리가 방전되었을 때 혹시 오토바이 배터리로 점프 스타트가 가능할까요. [7]	hl5brj	04.16	11091
4461	쇼핑몰 가능한 보드 추천 좀 해주세요; [15]	Alphonse	04.16	1625

첫페이지 67 68 69 70 71 72 73 74 75 76 끝페이지

글쓰기

정규식을 사용해서 한글만 추출하려면?

코멘트 10

김강욱

왕초보

김강욱

왕초보

김강욱

dow

Freedom^^

midday

Freedom^^

솔모리

메뉴