메뉴 바로가기 본문 바로가기 하단 바로가기

KOBICian’s Story

프로필사진
[1호] 유전체 박물관 - 자료(資料)와 사료(史料) 사이에서
  • 작성자 정해영 (KOBIC 센터장/책임연구원)
  • 작성일2024-03-11 16:05:51
  • 조회수453

제 사무실의 한쪽 구석에는 수십 장의 CD-ROM과 하드 디스크 드라이브가 상자에 수북하게 담겨 있습니다. 여기에는 20여 년 전부터 한국생명공학연구원에서 일하면서 생성한 자료가 거의 다 보존되어 있습니다. ‘거의 다’라고 표현하는 것은 일부 자료는 없어진 상태이기 때문입니다. ABI 3700이나 RISA-384와 같은 고전적인 DNA 염기서열 해독장치에서 생산된 크로마토그램 파일, 즉 ab1이나 scf라는 확장자를 가진 파일 중 가장 최초의 미생물 유전체 프로젝트에서 만들어진 것은 당시 CD-ROM에 백업을 해 두었었으나 찾을 길이 없고, 손으로 직접 적은 연구노트는 사무실 공간을 줄이기 위해 오래전에 전부 도서관에 제출을 해 버렸습니다. 따라서 디스크 드라이브를 컴퓨터에 연결하여 내용물을 끄집어 낸다 하여도 단편적인 기억과 디스크에 남긴 보고서 등 단편적 자료에만 의존하여 어떤 연구 업무와 관련한 것인지를 알아내야 하는 어려운 처지에 놓였습니다.

 

저는 주로 미생물의 전장 유전체를 해독하는 일에 오랫동안 종사해 왔습니다. 제 기억으로는 국제 콘소시엄의 형태가 아니라 한국인이 독자적으로 수행한 미생물의 완성된 유전체 서열이 국제 학술지에 논문으로 처음 등장한 것이 2004년이었고, 그 다음 해인 2005년에는 세 편의 논문이 더 발표되었습니다. 그 가운데 두 개의 프로젝트에 제가 직접 참여하여 서열 단편(read)를 이어 붙였던 실무자로서 당시의 연구 결과물을 K-BDS에 등록한다면 매우 의미 있는 일이 될 것이라 생각하여 오래 전의 자료가 담겨 있는 디스크 드라이브를 예전 사무실로부터 힘겹게 들고 온 것입니다. 그때는 자동 주석화 서비스 등도 활발하지 않았었기에 수백만 염기쌍에 불과한 세균의 유전체라 하더라도 유전자를 예측하고 주석화를 하는 데 많은 공을 들여야 했으며, 논문을 서둘러 내기 위해 최종 가공된 유전체 정보를 NCBI에 등록하고 accession number를 받는 일에만 몰두했었습니다. 따라서 raw sequencing data 및 중간 과정/최종 연구결과 데이터를 영구적으로 저장한다거나, 이를 국가 R&D 사업 성과물로서 별도 등록할 의무가 있다는 것도 제대로 알지 못했었습니다.

 

KOBIC으로 저장매체를 들고 온 뒤에 비로소 깨달은 것이 있습니다. 첫째, 이미 언급했듯이 충분한 메타데이터를 되살리기가 어렵습니다. 둘째, 최대한 정보를 되살려서 등록을 한다 해도 NGS 등 최신 자료에 특화된 K-BDS에서는 구식 유전체 프로젝트에서 유래한 자료의 등록에 적합한 데이터 유형을 찾기 어렵습니다. Zenodo나 Figshare와 같이 K-BDS의 ‘기타 데이터’에서는 전용 등록 양식이 구비되지 않은 모든 데이터를 등록할 수 있습니다. 그렇다면 서열 단편이 최종 contig 위에 어떻게 배열되는지를 나타내는 ace 파일을 등록하면 좋을까요? 만약 현재 공개된 유전체 염기서열 특정 부위의 정확도가 의심스럽다면, 분명히 이런 자료는 유용할 것입니다. 그러나 안타깝게도 ace 파일은 요즘 통용되는 SAM/BAM 보다 훨씬 이전의 데이터 파일로서, consed라는 전용 편집기 – 마지막 버전은 2015년 배포 - 가 아니면 열어서 확인할 수가 없습니다. 필요하다면 20여 년 전에 막대한 연구비를 들여서 만들었던 크로마토그램을 복원하여 확인을 하느니 차라리 해당 균주에서 새로 DNA를 뽑아서 NGS로 다시 시퀀싱을 한 뒤 이미 등록된 참조 유전체 서열(reference genome sequence)에 최신 소프트웨어를 사용, 매핑하여 활용하는 것이 시간과 비용 모든 면에서 더욱 효과적일 것입니다.

 

결국 활용 시기를 놓친 자료는 연구 현장에서 가치 있게 쓰이기가 점점 어려워집니다. 가장 최근에 서랍에 넣은 자료일수록 다시 꺼내어 볼 확률이 더 높은 것도 사실입니다. 어쩌면 저는 자기 테이프 아카이브에나 넣어 보관할 수준의 낡은 자료를 놓고서 고민하고 있는지도 모르겠습니다. 따라서 연구에 재사용할 수 있는 자료로서의 가치를 잃기 이전에 시퀀싱 관련 자료(raw data 포함)를 신속하게 등록하고, 부득이한 사유가 있지 않다면 이를 공개하는 것이 R&D에 투입된 국민의 세금을 더욱 소중하게 쓰는 길일 것입니다. 개인 연구자 수준에서는 자료의 보관도 쉽지 않으니, 시퀀싱 서비스 업체로부터 raw data를 직접 KOBIC의 저장소로 보내자는 아이디어에도 귀를 기울일 필요가 있습니다.

 

국내 유전체 프로젝트의 ‘역사’를 다루는 분야가 있다면, 혹은 유전체 박물관이 세워진다면, 그곳에서는 오래된 데이터가 일종의 ‘사료’(역사적 자료)로서 가치를 인정받을 수 있을지도 모릅니다. 저 개인적으로도 이러한 활동에 무척 관심이 많습니다. 그러나 그렇게 되기에는 제가 본격적으로 연구에 종사한 20여 년이라는 시간이 그다지 길지도 않고, 인간 게놈 프로젝트와 같이 긴 호흡으로 국내의 유전체 연구 역사를 꿰뚫고 면면히 흐를 R&D 프로그램도 존재하지 않았음을 안타깝게 생각합니다.

 

연구에 쓰여야 할 데이터가 박물관으로 보낼 역사적 자료가 되기 이전에 그 수명 주기 동안 철저히 활용되려면 너무 늦지 않게 공개하여 제3자에 의한 활용을 촉진하는 것 외에는 해답이 없습니다. 이는 일차 연구 결과의 검증뿐만이 아니라, 집단 지성의 발휘를 통해 새로운 발견을 낳는 지름길이 될 것입니다. 저처럼 연구 과제가 끝난 뒤 한참이 지나서 고민하지 마시고, 「연구 데이터는 생성 즉시 등록」한다는 원칙을 기억해 두시기 바랍니다.

 

KOBICian’s story는 KOBIC 멤버가 직접 작성하는 현장감 넘치는 글로서 KOBIC의 업무 방향이나 공식 입장과는 다를 수 있습니다.

다른 KOBICian’s Story 보기

KOBICian's Story Thumbnail

현대의 우리는 흔히 정보의 홍수 속에 살고 있다고 합니다. 하지만 너무 많은 정보는 우리가 문제를 이해하고 결정을 내리는데 더욱 어려움을 겪게 할 수도 있습니다. 이런 상황 속에서 내가 필요로 하는 정보를 효과적으로 찾을 수 있는 방법은 매우 중요합니다.

검색은 수많은 데이터에서 꼭 필요한 것만을 정확히 찾아내는 데 필수적인 수단입니다. 사람들은 자연스럽게 자신이 찾고자 하는 내용의 키워드를 고민하여 고르고 그 키워드를 입력하여 검색을 수행합니다. 이 글에서는 대표적인 검색 기법의 원리와 그 특징을 소개해 드리고자 합니다.

키워드 검색(Keyword Search)

키워드 검색은 사용자가 입력한 키워드를 기반으로 관련된 콘텐츠를 찾아주는 방법입니다. 이 방식은 사용자의 니즈를 빠르게 파악하고 관련된 정보만 노출하도록 도와줍니다.

우리가 일반적으로 사용하는 구글이나 네이버 등의 검색 방식은 키워드 검색이라 할 수 있습니다. 키워드를 입력하면 검색엔진은 수많은 웹페이지 중 해당 키워드가 포함된 웹페이지를 찾고 내부적인 연산을 통해 연관도를 계산한 다음 키워드와 가장 관련이 많을 것 같은 페이지를 순서대로 제공합니다. 이때, 연관도가 높은지 판단하는 기준은 "웹페이지 내에 키워드가 얼마나 많이 등장 하는가"라고 할 수 있습니다. 초창기 구글은 페이지랭크 알고리즘을 사용하여 웹 페이지의 중요도에 따라 검색 결과의 순위를 결정하였지만 나중에 알고리즘을 비공개로 전환하였습니다.

예를 들어 오픈소스 검색 및 분석 알고리즘인 Elasticsearch에서는 아래 수식과 같이 TF/IDF기반의 BM25알고리즘을 사용하여 연관도를 측정합니다.

 

복잡해 보이는 이 계산에는 크게 TF, IDF 그리고 Field Length 3가지 요소가 연관도를 나타내는 스코어에 영향을 줍니다. 예를 들어, 구글 등에서 쥬라기 공원이라는 검색어로 검색을 한다고 가정해보면, 해당 키워드가 5번 들어있는 웹 페이지보다는 10번 들어있는 웹페이지가 내가 찾고 싶어 하는 내용일 확률이 높을 것 입니다. 문서 내에서 검색된 키워드가 더 많을수록 점수가 높아지는 것을 TF(Term Frequency)라고 합니다. 그리고 동일한 검색에서 쥬라기 또는 공원중 어떤 단어든지 포함하고 있는 페이지들은 검색 결과에 포함될 수 있습니다. 이때 쥬라기가 포함된 결과는 10, “공원이 포함된 결과는 100개라고 가정한다면 흔한 공원보다는 희소한 쥬라기가 더 중요한 키워드일 가능성이 높습니다. 검색한 키워드를 포함하고 있는 문서 개수가 많을수록 그 키워드의 가중치가 감소하는 것을 IDF(Inverse Document Frequency)라고 합니다. 그리고 문서에서 필드길이(Field Length)가 큰 필드보다는 짧은 필드에 있는 키워드의 비중이 클 것입니다. 제목과 내용필드에 검색어가 모두 있는 경우 텍스트 길이가 긴 내용필드보다는 짧은 제목 필드의 키워드의 점수가 더 높게 나타납니다. 이처럼 키워드 검색 방식에서는 검색어에 대한 종합적인 스코어 계산을 통해 연관성이 높은 순서로 결과를 나타내줍니다.

하지만 이런 검색방식에는 여러 가지 문제점들이 나타날 수 있습니다. 실제 Elasticsearch를 사용하고 있는 바이오소재 정보 통합플랫폼(BioOne)에서도 초기에는 "liver cancer"에 대한 논문 검색 시 내용의 관련성 보다는 "Liver Cancer"저널의 논문이 주요 결과로 검색되는 등 검색 의도와는 다른 결과들이 도출되는 경우도 있었습니다.

이밖에도 키워드 검색 방식은 정확하지 않은 키워드를 입력할 경우 관련된 콘텐츠를 찾을 수 없으며, 동일한 의미를 가지는 용어들에 대해 결과가 다르게 나타날 수 있습니다. 예를 들어 야간은 같은 의미이지만 사용하는 키워드에 따라 다른 결과가 나올 수 있습니다. 반면 ”, “등과 같이 여러 가지의 의미를 가지는 용어를 키워드로 선택할 경우 사용하는 의미가 다르지만 이를 구분할 수 없어 서로 의도와 다른 검색 결과를 얻을 수도 있습니다.

 

의미 기반 검색(Semantic Search)

이런 문제를 보완할 수 있는 기술이 바로 의미기반 검색(Semantic Search)입니다. 의미 기반 검색은 단순히 키워드를 찾는 것이 아니라, 사용자 검색의 의도와 문맥적 의미를 이해하고 유사한 내용을 찾는 방식입니다.

이러한 의미 기반 검색을 가능하게 하는 것이 바로 벡터 검색 기술입니다. 먼저 질문과 문서의 내용을 숫자 형태의 벡터로 변환하는 임베딩(Embedding)과정을 수행합니다. 임베딩(Embedding)은 텍스트를 실수 벡터 형태로 표현한 결과를 의미합니다. 특정한 단어, 문장 또는 문서를 임베딩 생성 모델에 입력하면, 일정 수의 실수로 구성된 벡터가 출력됩니다임베딩의 결과는 사람이 직접 관찰하고 그 의미를 파악하기는 어렵지만컴퓨터는 서로 다른 단어 또는 문서에서 추출된 임베딩 간의 거리를 계산하여 이들 간의 의미적 관계를 이해할 수 있습니다.

(출처 : Elasticsearch Relevance Engine(ESRE))

일반적으로 고차원 벡터인 이러한 임베딩은 데이터의 본질적 의미를 포함하는 개념적 위치로 표현할 수 있습니다. 비슷한 의미, 개념 또는 맥락을 가진 항목은 이 벡터 공간에서 서로 가깝게 배치됩니다. 이 벡터들 사이의 관계를 측정해서 서로 얼마나 가까운지를 계산하여 가장 유사한 내용을 가진 문서를 우선적으로 보여주는데, 이때 유사도를 측정하는 방법으로 코사인 유사도라는 수학적 계산을 사용합니다. 결론적으로 의미 기반 검색은 벡터 검색을 기반으로 사용자의 의도에 맞는 직관적인 검색결과를 얻을 수 있어 활용도가 높고 보다 관련성이 높은 정확한 결과를 제공할 수 있습니다.

최근에는 단어나 문장을 벡터로 추출하는데 활용할 수 있는 기술로 언어 모델(Language Model)이 이용되고 있으며, 2019년 이후 BERT, GPT 등 다양한 대형 언어 모델이 많이 활용되고 있습니다.

이런 흐름에 따라, 향후 BioOne에서도 단순 키워드 검색의 다양한 문제점들을 보완하기 위해 의미기반 검색방식의 장점을 도입하고 접목하여 검색의 정확성을 높이고 효율적인 검색이 가능하도록 고도화할 계획입니다.

  • 작성자강태호
  • 작성일2025-06-02
  • 조회수44
KOBICian's Story Thumbnail

인간이 살아가면서 마주하는 가장 작은 생물체군을 보통 미생물이라고 부릅니다. 너무나 작아서 그 존재를 오랫동안 몰랐기에 본격적인 미생물 연구의 역사는 비교적 짧습니다. 미생물학에서 연대기를 거슬러 올라가다 보면 코흐의 가설이나 파스퇴르의 살균법을 지나, 레이우엔훅의 현미경 발견에까지 도달하게 됩니다. 약 400년 정도의 짧은 역사입니다. 그러나 작은 크기와 짧은 연구 역사에도 불구하고 미생물 자체는 오래전부터 주변에 어디에나 있었고, 모든 곳에 영향을 미쳤으며, 심지어 숫자도 많기에 인간의 삶 전체에서 영향을 미치고 있습니다. 술 빚기를 인류 최초의 생명공학이라 한다면, 미생물의 존재를 모르던 먼 과거에도 우리는 이미 미생물을 이용하고 있었습니다.

이런 늦은 등장에도 불구하고 유전(체)학 분야에서는 미생물이 독보적인 장점을 지닙니다. 유전체 크기가 상대적으로 작아서 연구에 이상적인 모델이기 때문입니다. 이로 인해 1995년 크레이그 벤터(Craig Venter)의 연구팀이 샷건 시퀀싱을 적용하여 인플루엔자균(Haemophilus influenzae)의 완전한 유전체 서열(약 180만 염기쌍)을 발표할 수 있었고, 이는 사상 최초로 한 생물의 “전체 유전서열 지도”를 읽어낸 획기적인 사건이었습니다. 다음해에는 1996년에는 유럽 중심의 컨소시움에서 6천개의 유전자를 가진 작은 진핵생물인 효모(Saccharomyces cerevisiae)가 해독됨으로써 인간 유전체 프로젝트(HGP)에 앞서 미생물이 유전체 시대의 개막을 이끈 결정적 계기가 되었습니다.

이러한 유전체 해독 기술의 발전은 미생물 유전체를 하나하나 분석하는 것에서 나아가, 미생물의 계통와 미생물 생태계의 방대한 유전정보를 군집수준에서 이해할 수 있는 길을 열었습니다. 이는 (1) 진화유전체학적인 관점에서 더 많은 데이터를 통해 범유전체(pangenome) 구축과 (2) 미생물군을 총칭하는 마이크로바이옴 연구의 시작이 되었습니다. 특히 미생물 군집에 관심이 있던 연구자들은 90년대 인체 미생물군을 조사하려는 시도를 했고, 1996년에는 사람 대변 샘플에서 배양여부와 상관없이 다양한 세균들을 16S rRNA 유전자 시퀀싱으로 식별하는 연구를 처음 수행했습니다. 이는 개인마다 고유한 미생물 프로파일이 있다는 발견으로 이어집니다. 또한 1998년 조 핸델스만(Jo Handelsman) 연구진은 서로 다른 미생물을 분리하여 배양하지 않고 그 유전체를 한꺼번에 분석하는 개념으로 메타유전체(Metagenomics)라는 용어를 만들었습니다. 이는 배양 불가능한 미생물까지 포함한 군집 전체의 유전정보를 다룬다는 점에서 당시까지의 미생물학 패러다임을 넘어선 혁신적인 개념이었습니다.

2000년대에 들어 시퀀싱 기술의 발전으로 비용과 분석시간이 급격히 감소하였는데, 이는 본격적으로 메타유전체 연구를 꽃피우는 배경이 되었습니다. 2004년에 크레이크 벤터팀 은 사르가소 해수의 메타유전체 분석을 통해 배양에 의존하지 않고 유전체 연구로도 수많은 신종 미생물과 유전자를 발굴할 수 있다는 가능성을 입증했습니다. 이 무렵 새로운 패러다임으로서 대규모 코호트 기반 마이크로바이옴 프로젝트들이 태동하였습니다. 선두주자는 미국 NIH는 2007년 대규모의 인간 마이크로바이옴 프로젝트(Human Microbiome Project, HMP)를 2007년 공식 출범시켰습니다. 총 두 단계로 진행된 HMP는 인체의 각각 부위에 서식하는 미생물들을 대상으로 참조용 미생물군 데이터베이스를 구축하고(1단계), 3개의 핵심 질환(염증성 장질환, 조산, 2형 당뇨)과 마이크로바이옴의 연관성 규명을 목적으로 한 전체 유전자 카탈로그(2단계)를 통해 마이크로바이옴의 역할을 구명하고자 했습니다. 유럽에서도 2008년 MetaHIT(Metagenomics of the Human Intestinal Tract) 프로젝트를 통해 인간 장내 미생물군집의 유전자 카탈로그를 구축하고 개인별 미생물 구성과 비만 및 염증성 장질환 등의 관련성을 밝히고자 했습니다. 이러한 대형 프로젝트들은 미생물 빅데이터를 구축함으로써 질병진단과 맞춤의료에 좀 더 다가가게 되었습니다. 

인간 마이크로바이옴을 넘어 2010년에는 미생물학자 롭 나이트(Rob Knight)와 잭 길버트(Jack Gilbert) 등이 주도하여 지구 마이크로바이옴 프로젝트(Earth Microbiome Project, EMP)가 시작됐는데, 전 세계의 연구자들로부터 20만 개 이상의 다양한 환경 시료를 모아 미생물 다양성과 기능을 분석하고자 했습니다. 또한 식물병리학자 제인 리치(Jan Leach)를 필두로 2015년에는 식물 마이크로바이옴 이니셔티브(Phytobiome Initiative)와 같은 농업에서의 마이크로바이옴은 단순히 분야의 연구를 넘어 원헬스(One Health) 관점에서 마이크로바이옴 데이터의 축적을 촉진시키고 있습니다. 또한 최근에는 미생물군집 수준에서의 메타전사체, 메타단백체, 메타대사체 등이 쌓여 가면서 홀로지놈(Hologenome)에서의 미생물의 역할이 조금씩 밝혀지고 있습니다.

이러한 빠른 변화 속에서 한국에서도 발맞추어 최근 한국인의 마이크로바이옴 데이터를 확보하고 이를 통해 마이크로바이옴 기반 질환규명 및 진단치료기술을 개발하고자 산업부를 시작으로 과기부, 복지부/질병청, 농진청 등의 지원을 통해  다양한 분야에서 마이크로바이옴 프로젝트가 시작되고 있습니다. 이 연장선에서 범부처적으로도 마이크로바이옴 융합연구를 위해 빅데이터 구축 및 활용 프로젝트를 준비하고 있으며, 모여진 마이크로바이옴 빅데이터는 궁극적으로 한국인 특이적인 정밀의료 구현에 유전체 정보만큼 중요한 기반이 될 것입니다.

마지막으로, 중용(中庸) 23장의 한 구절을 떠올리며 이 글을 맺고자 합니다. “작은 것에라도 정성을 다하면, 그 행동이 세상을 변화시킨다.”와 같이 “작디작은 미생물 데이터를 정성을 다해 연구하고 이해한다면, 그 결과는 세상을 건강하게 만들 수 있는 있는 힘이 될 것”이라 생각합니다.

  • 작성자전종범
  • 작성일2025-05-25
  • 조회수163
KOBICian's Story Thumbnail

저는 평소에 글 쓰는 것을 매우 좋아합니다. GenoGlobe.com이라는 개인 도메인 하위의 블로그위키에 꾸준히 글을 올리고, 원고를 써 달라는 부탁이 들어오면 거의 거절하지 않습니다. KOBICian’s Story를 운영하면서 가끔 다음번 투고자를 찾지 못했을 때, 제가 자발적으로 글을 써서 등록하기도 합니다. 원래 매주 월요일 아침 회의 때에 몇 주 뒤의 투고자를 선정하는 것이 원칙이지만, 출장이나 연휴 등으로 회의를 거르게 되면 다음번 글 쓸 사람을 미처 선정하지 못하는 일이 가끔 벌어지기도 합니다. 그래서 재미는 없겠지만 올해의 남은 기간 동안에는 사다리타기를 하여 투고 순서를 무작위로 배정할 예정입니다. 사정이 생겨서 서로 합의하여 순서를 바꾸는 것에 대해서는 자유입니다.

모든 사람이 글쓰기를 즐기는 것은 아닙니다. 개학을 며칠 앞두고 글짓기 숙제를 하느라 고생한 경험은 누구나 있을 것입니다. 특히 주제가 정해져 있지 않은 상태에서는 더욱 힘이 듭니다. 글쓰기를 즐기는 저라고 해서 늘 글감으로 장전된 상태는 아닙니다. 최근 들어서는 정성을 들여서 약간 긴 분량의 글을 쓸 일이 많았습니다. 이럴 때 ChatGPT라는 출중한 도구를 써서 글쓰기를 맡겨보고 싶은 충동이 전혀 들지 않는 것은 아닙니다. "「ChatGPT 시대의 글쓰기」라는 제목으로 공백 포함 2,600자 정도의 에세이를 써 줘”라고 명령을 해 보십시오. 제가 얻은 결과물은 제 블로그에 소개해 두었습니다(링크).

어떻습니까? 주제만 잘 정해서 제시하면 작업물 그대로 KOBICian’s Story에 올려도 손색이 없을 정도로 멋진 글이 한 편 나왔습니다(순번이 되었을 때 무슨 글을 써야 할지 고민하지 말고 이렇게 하시라고 권장하는 것은 물론 아닙니다! 초안을 다듬거나 분량을 조정할 때에는 분명히 도움이 됩니다). 인공지능은 최종적으로 검증을 한다는 전제 하에 사실 관계를 확인하거나 어떤 주장에 대한 근거를 찾는 데에는 일반적인 검색보다 무척 편리합니다. 결론을 미리 정해 놓고 이에 맞추어 논리를 전개해 나가도록 글쓰기를 요청해도 아주 잘 들어 줍니다. 예를 들어 ‘오픈 사이언스는 성배처럼 숭고하다’, ‘오픈 사이언스가 정말 성배처럼 숭고한가?’, ‘오픈 사이언스는 공허한 레토릭에 불과해’-그 어느 것으로든 가능합니다. 심지어 오픈 사이언스에 대한 20단어짜리 궤변을 써 보라 했더니, 이런 답을 합니다. 

- 오픈 사이언스는 모두를 위한 것이지만, 그래서 아무도 책임지지 않는다는 점에서 가장 민주적인 기만이다.
- 오픈 사이언스는 투명하다고 하지만, 정작 보이는 건 빈 저장소와 엑셀 표 속 예산 보고서뿐이다.
- 오픈 사이언스는 모두를 위한 것이라 주장하지만, 책임질 사람은 없고, 공은 늘 기관장 연설문으로 흘러 들어간다.

ChatGPT 4o Canvas라는 곳으로 작업 환경을 옮기면 마치 대화를 하면서 협업하며 글을 쓰는 것 같습니다. 인공지능이 일상의 모든 곳에서 스며들고 있으니, 글쓰기 분야라고 해서 이를 배척할 이유는 없습니다. 특히 효율을 생각하면 더욱 그렇습니다. 단지 제출 기한만 맞추면 되고 제출 후에는 아무도 읽지 않을 것 같은 글을 써야 할 때 ChatGPT를 이용하면 더욱 좋을 것만 같습니다. 결과물의 완성도는 분명히 더 높아지며, 이렇게 하여 절약한 시간에는 더욱 가치 있고 창의적인 일에 매달릴 수 있을 것이라고 생각하기 쉽습니다. 늘 문서를 생산하는 조직 안에서는 ‘이봐, ChatGPT 아직도 안 쓰나? 시간도 없는데 원고 좀 대충 다듬어서 가져와 봐’라는 말을 일상적으로 하게 될 것이고, 우리가 접하는 글은 외견상 수준이 점점 높아질 것입니다. 그러나 그 글이 외부로 나가게 될 때에는 과연 ChatGPT의 도움을 받았다고 자신 있게 말할 수 있을까요? 체중 감량에 성공한 할리우드 스타들이 위고비를 사용했다고 공개하고 싶지 않아 하는 것과 비슷할 것입니다.

인터넷 덕분에 쉽게 자료를 찾게 되었을 때 이를 비판하는 사람이 있었다고 합니다. 직접 발로 뛰어다니며 인터뷰를 하거나 도서관을 뒤지지 않고 컴퓨터 앞에 앉아서 키워드 몇 개를 넣어서 쉽게 자료를 찾는다면 그것은 올바르게 조사하는 자세가 아니라고. 아마 전화기가 처음 발명되었을 때에도 마찬가지가 아니었을까요? 직접 찾아가서 용건을 전해야지, 최신 기술이랍시고 이렇게 편하고 게으르게 대화를 하려 하면 되겠느냐고요. 지금은 아무도 이런 것을 가지고 비난하지 않을 것입니다. 기술 거부는 어느 시대에나 있었습니다.

결국 진정성의 측면에서 늘 고민이 따르게 됩니다. 그 진정성의 방향은 늘 공평하지도 않습니다. 제가 하는 숙제에는 ChatGPT를 이용해도 좋고, 남이 해서 나에게 내는 숙제는 정성을 들여 쓴 것이기를 바라는 양가감정을 가진 것은 아닐까요? 지브리 스튜디오 스타일로 사진 바꾸기에 얼마나 많은 사람들이 열광하였는지 우리는 잘 압니다. 진실이 아님을 서로가 다 알고 있는 상태에서는 오히려 논란의 여지가 없습니다. 그러나 진실 혹은 진정성을 기대하는 곳에서는 그렇질 못합니다. 그 누구도 효율을 이유로 자동응답기와 상담하고 싶지는 않으니까요.

인류 문명에 한번 등장하여 대다수가 그 편리함을 맛보게 된 기술을 이제는 거부할 수 없습니다. 이러한 논란을 너무 오래 하는 것도 현명하지 못합니다. 새로운 도구를 잘 활용하여 더 나은 일을 할 수 있다면 정말 좋겠습니다. 사회가 새로운 기술을 완전히 수용할 때까지는 아직 시간이 더 걸릴 것 같습니다. 지금 당장은 새로운 기술을 빨리 습득한 사람이 더 앞서가는 것처럼 보이겠지만, 5년이나 10년이 지난 뒤 사회가 어떻게 변해 있을지 상상해 보는 것도 좋을 것입니다.

 

<ChatGPT가 제안하고 자동 생성한 인포그래픽>

 

  • 작성자정해영
  • 작성일2025-05-19
  • 조회수394
TOP